Monografías Plus »

Regresión aplicada a la logística



La regresión logística

La regresión logística es una herramienta estadística con una gran capacidad para el análisis de datos de la investigación clínica, de la investigación tecnológica, de la ingeniería y de la epidemiología.

Monografias.com

La regresión logística se usa para analizar los problemas en los cuales hay una o más variables independientes que determinan un resultado que se mide con una variable dicótoma que toma solamente dos posibles resultados.

También puede ser usada para estimar la probabilidad de aparición de cada una de las posibilidades de un suceso con más de dos categorías (politómico).

En la regresión logística, la variable dependiente es binaria o dicótoma, es decir contiene solamente los datos cifrados como 1 (VERDADERO) o 0 (FALSO), con ella se utiliza un modelo matemático, la transformación logit, para predecir el comportamiento de la variable dependiente.

La regresión logística intenta modelar la relación entre la probabilidad (proporción) de una respuesta positiva y las variables explicativas, los valores numéricos de 0 y 1 se asignan a las dos categorías de una variable binaria, el 0 representa una respuesta negativa y el 1 representa una respuesta positiva, la media de esta variable será la proporción de respuestas positivas

Esta técnica modela cómo influye en la probabilidad de aparición de un suceso, habitualmente dicotómico, la presencia o no de diversos factores y el valor o nivel de los mismos, ella precisa el efecto de un grupo de variables, consideradas potencialmente influyentes, sobre la ocurrencia de un determinado proceso.

La regresión logística compite con el análisis discriminante como un método para analizar las variables de respuesta discreta, la regresión logística es más versátil y más adecuada que el análisis discriminante porque no asumen que las variables independientes se distribuyen normalmente.

Esta herramienta resulta de gran utilidad para establecer el efecto de un grupo de variables, consideradas potencialmente influyentes, sobre la ocurrencia de un determinado proceso.

Se clasifica el valor de la variable respuesta como 0 cuando no se presenta el suceso y con el valor 1 cuando sí está presente y si se busca cuantificar la posible relación entre la presencia del suceso y, un posible factor de riesgo y se toma cómo variable dependiente la probabilidad p de que ocurra el suceso y se construye la siguiente función:

Ln(p/1-p)

La relación p/(1-p) es llamada las probabilidades y el logit es el logaritmo de las probabilidades, o sólo probabilidades de registro.

Si se tiene una variable p que puede tomar cualquier valor, por lo se puede elaborar para ella una ecuación de regresión tradicional:

Ln(p/1-p) = a + bx

Este es el tipo de ecuación que se conoce como modelo logístico, donde puede haber varios factores:

Ln(p/1-p) = b1X1+ b2X2+ b3X3 + b4X4

El odds (OR)

Una manera, de representar la probabilidad de ocurrencia de un evento es mediante el cociente entre la probabilidad de que ocurra el evento y la probabilidad de que no ocurra, este cociente, se denomina odds e indica cuanto más probable es la ocurrencia del evento que su no ocurrencia, y es un parámetro de cuantificación de riesgo.

odds = (p/1-p)

donde p es la probabilidad de que ocurra el suceso.

El OR es parecido al riesgo relativo que corresponde al cociente de la probabilidad de que aparezca un suceso cuando el factor está presente dividido por la probabilidad de que aparezca un suceso cuando el factor no está presente.

Si en la ecuación de regresión se tiene un factor dicotómico, el coeficiente b de la ecuación para el factor dicotómico está directamente relacionado con el OR de la presencia o no presencia del factor.

El OR = exp(b) es una medida que cuantifica el riesgo que representa poseer el factor correspondiente respecto a no poseerlo.

Ejemplo

Sea p(x) la probabilidad de éxito cuando el valor de la variable predictora es x.

Entonces será:

Monografias.com

Cuando x = 50, un éxito es dos veces tan probable como una falla, los odds son 2 a 1.

Regresión Logística

Caso 1: Hepatitis

Para estudiar, la asociación entre la hepatitis B y el consumo de alcohol, el consumo de drogas y el ambiente, se dispone de una data hipotética donde se registra el consumo diario de alcohol en gramos , el consumo de otras drogas como 0: no y 1: sí, 10 ambientes y 0: hepatitis y 1: no hepatitis.

Data - hepatitis

Monografias.com

Los resultados de la regresión logística

Los resultados de la regresión logística se presentan en una tabla en la que aparecerá para cada variable el valor del coeficiente; su error estándar; un parámetro, denominado de chi² Wald, que permite contrastar si el coeficiente es significativamente diferente de 0 y el valor de p para ese contraste; así como los OR de cada variable, junto con su intervalo de confianza para el 95 % de confianza.

SOLUCION

PASO UNO

Regresión Logística

Variable Dependiente: HEPATITIS

Factores:

CONSUMO ALCOHOL

DROGAS

AMBIENTE

La salida demuestra los resultados de correr un modelo de regresión logística para describir la relación entre HEPATITIS y 3 variables independientes: CONSUMO ALCOHOL, DROGAS y AMBIENTE

Máximo Verosímil

Parámetro

Estimado

Error

Odds Ratio

CONSTANTE

3,91042

1,78831

CONSUMO ALCOHOL

-0,0664747

0,0321958

0,935687

DROGAS

-4,16478

1,48639

0,0155331

AMBIENTE

0,0982208

0,251774

1,10321

n

30

MSE

0,00915563

MAE

0,241008

ME

0,0452538

Análisis de Errores

Fuente

Errores

Df

P-Valor

Modelo

21,5897

3

0,0001

Residual

16,6011

26

0,9206

Total (corr.)

38,1909

29

Porcentaje de errores explicado por el modelo = 56,5312

Porcentaje Ajustado = 35,5837

Test de Verosimilitud

Factor

Chi-cuadrado

Df

P-Value

CONSUMO ALCOHOL

6,63749

1

0,0100

DROGAS

12,8008

1

0,0003

AMBIENTE

0,153101

1

0,6956

La ecuación del modelo es: HEPATITIS = exp(eta)/(1+exp(eta))

donde eta = 3.910 - ALCOHOL 0,06647*CONSUMO - 4,164*DROGAS + 0,09822*AMBIENTE

El P-valor para el modelo en el análisis es menor de 0.05, por lo que hay una relación estadística significativa entre las variables en el nivel de confianza del 95.0%.

El P-valor para las residuales es mayor o igual 0.05, indicando que el modelo no es perceptiblemente peor que el mejor modelo para estos datos al 95.0% de confianza o a un nivel de confianza más alto.

El porcentaje del error de HEPATITIS explicado por el modelo es el 56.5312%, esta estadística es similar a la estadística R-Ajustada

El porcentaje ajustado que es más conveniente para comparar modelos con diversos números de variables independientes, es del 35.5837%.

En la determinación de si el modelo puede ser simplificado, se nota que el P-valor más alto para las pruebas de probabilidad es 0.6956, perteneciendo a AMBIENTE.

Por ser el P-valor mayor o igual a 0.05, ese término no es estadísticamente significativo a un nivel de confianza de 95.0% o a un nivel de confianza más alto.

Por lo tanto, se debe considerar la eliminación de la variable AMBIENTE del modelo

PASO DOS

Regresión Logística - HEPATITIS

Variable Dependiente: HEPATITIS

Factores:

CONSUMO ALCOHOL DROGAS

La salida muestra los resultados de correr un modelo de regresión logístico para describir la relación entre la HEPATITIS y las variables independientes: CONSUMO DE ALCOHOL y DROGAS

Máximo Verosímil

Standard

Estimada

Parámetro

Estimados

Error

Odds Ratio

CONSTANTE

4,26428

1,57043

CONSUMO ALCOHOL

-0,0613085

0,0280866

0,940533

DROGAS

-4,19821

1,48344

0,0150225

Análisis de Errores

Fuente

Errores

Df

P-Valor

Modelo

21,4366

2

0,0000

Residual

16,7542

27

0,9370

Total (corr.)

38,1909

29

Porcentaje de errores explicado por el modelo = 56,1303

Pocentaje Ajustado = 40,4197

Test de Verosimilitud

Factor

Chi-cuadrado

Df

P-Valor

CONSUMO ALCOHOL

6,79961

1

0,0091

DROGAS

13,1689

1

0,0003

Análisis de Errores

Estimación

N

30

MSE

0,00929903

MAE

0,244613

MAPE

ME

0,042021

eta=4,26428 -0,0613085*CONSUMO ALCOHOL - 4,19821*DROGAS

REGRESION LOGÍSTICA

CASO 2: COLISIONES

Se propone aplicar la regresión logística para determinar la asociación entre el resultado fatal de las colisiones de autos y la edad del conductor, la velocidad del auto y la aceleración, se dispone de una data hipotética donde se registra la edad en años, la velocidad , la aceleración y el resultado fatal: 0: fatal y 1: no fatal.

Monografias.com

Regresión Logística - FATAL

Variable dependiente: FATAL

Factores:

EDAD

VELOCIDAD

ACELERACION

Modelo Estimado de Regresión (Máxima Verosimilitud)

Error

Razón de Momios

Parámetro

Estimado

Estándar

Estimada

CONSTANTE

-16,9845

5,14861

EDAD

0,162501

0,041448

1,17645

VELOCIDAD

0,233906

0,0862681

1,26353

Análisis de Desviación

Fuente

Desviación

Gl

Valor-P

Modelo

33,3408

2

0,0000

Residuo

45,3315

55

0,8206

Total (corr.)

78,6723

57

Porcentaje de desviación explicado por el modelo = 42,3793

Porcentaje ajustado = 34,7527

Pruebas de Razón de Verosimilitud

Factor

Chi-Cuadrada

Gl

Valor-P

EDAD

29,9333

1

0,0000

VELOCIDAD

10,0497

1

0,0015

Análisis de Residuos

Estimación

n

58

CME

0,0221508

MAE

0,340955

ME

0,00127246

Selección de factores por etapas

Método: selección hacia atrás

P-para-introducir: 0,05

P-para-eliminar: 0,05

Paso 1:

3 factores en el modelo. 54 g.l. para el error.

Porcentaje de desviación explicada = 44,10% Porcentaje ajustado = 33,93%

Paso 2:

Eliminando factor ACELERACION con P-para-eliminar = 0,244299

2 factores en el modelo. 55 g.l. para el error.

Porcentaje de desviación explicada = 42,38% Porcentaje ajustado = 34,75%

Modelo final seleccionado.

La salida muestra los resultados de ajustar un modelo de regresión logística para describir la relación entre FATAL y 3 variable(s) independiente(s). La ecuación del modelo ajustado es

FATAL = exp(eta)/(1+exp(eta)) en donde

eta = -16,9845 + 0,162501*EDAD + 0,233906*VELOCIDAD

Como el valor-P de la tabla de Análisis de Desviaciones es menor que 0,05, existe una relación estadísticamente significativa entre las variables, con un nivel de confianza del 95,0%. Además, el valor-P para los residuos es mayor o igual que 0,05, indicando que el modelo no es significativamente peor que el mejor modelo posible para estos datos con un nivel de confianza del 95,0% o mayor.

También se muestra que el porcentaje de desviación de FATAL explicado por el modelo es igual a 42,3793%. Este estadístico es similar al estadístico R-Cuadrada habitual. El porcentaje ajustado, que es más apropiado para comparar modelos con diferente número de variables independientes, es 34,7527%.

Para determinar si el modelo puede ser simplificado, note que el valor-P más alto para las pruebas de verosimilitud es 0,0015, que pertenece a VELOCIDAD. Como el valor-P es menor que 0,05, ese término es estadísticamente significativo al nivel de confianza del 95,0%. Consecuentemente, usted probablemente no quisiera eliminar ninguna variable del modelo.

Monografias.com

Prueba Chi-Cuadrada de Bondad de Ajuste

Intervalo

CIERTO

CIERTO

FALSO

FALSO

Clase

Logit

n

Observado

Esperado

Observado

Esperado

1

menor que -1,71418

12

1,0

1,04084

11,0

10,9592

2

-1,71418 a 0,203801

13

4,0

4,5982

9,0

8,4018

3

0,203801 a 1,41271

11

9,0

7,92633

2,0

3,07367

4

1,41271 a 2,93429

12

10,0

10,6205

2,0

1,37951

5

2,93429 o mayor

10

10,0

9,81415

0,0

0,185851

Total

58

34,0

24,0

Chi-cuadrada = 1,14736 con 3 g.l. valor-P = 0,765653

Esta prueba determina si la función logística ajusta adecuadamente a los datos observados. Como el valor-P es mayor o igual que 0,05, no hay razón para rechazar la adecuación del modelo ajustado con un nivel de confianza del 95,0% ó mayor.

Monografias.com

Intervalos de confianza del 95,0% para los estimados de los coeficientes

Error

Parámetro

Estimado

Estándar

Límite Inferior

Límite Superior

CONSTANTE

-16,9845

5,14861

-27,3026

-6,66641

EDAD

0,162501

0,041448

0,0794369

0,245564

VELOCIDAD

0,233906

0,0862681

0,0610201

0,406791

Intervalos de confianza del 95,0%

Parámetro

Estimado

Límite Inferior

Límite Superior

EDAD

1,17645

1,08268

1,27834

VELOCIDAD

1,26353

1,06292

1,50199

La tabla muestra intervalos de confianza del 95,0% para los coeficientes en el modelo. Los intervalos de confianza muestran con que precisión se pueden estimar los coeficientes dada la cantidad de datos disponibles y del ruido que está presente. También se muestran los intervalos de confianza para la razón de momios. La razón de momios es igual al inverso del logaritmo natural del coeficiente y muestra el cambio proporcional en la variable de respuesta cuando se incrementa la variable independiente en 1 unidad.

Monografias.com

Matriz de correlación para los coeficientes estimados

CONSTANTE

EDAD

VELOCIDAD

CONSTANTE

1,0000

-0,7304

-0,9665

EDAD

-0,7304

1,0000

0,5416

VELOCIDAD

-0,9665

0,5416

1,0000

Esta tabla muestra las correlaciones estimadas entre los coeficientes en el modelo ajustado. Estas correlaciones pueden usarse para detectar la presencia de multicolinearidad seria, es decir, correlación entre las variables predictoras. En este caso, hay 1 correlación con valor absoluto mayor que 0,5.

Monografias.com

Desempeño de Predicción - Porcentaje Correcto

Punto de Corte

CIERTO

FALSO

Total

0,0

100,00

0,00

58,62

0,05

100,00

8,33

62,07

0,1

100,00

29,17

70,69

0,15

97,06

37,50

72,41

0,2

94,12

54,17

77,59

0,25

94,12

62,50

81,03

0,3

94,12

62,50

81,03

0,35

91,18

62,50

79,31

0,4

88,24

62,50

77,59

0,45

88,24

70,83

81,03

0,5

88,24

75,00

82,76

0,55

88,24

79,17

84,48

0,6

85,29

87,50

86,21

0,65

85,29

91,67

87,93

0,7

82,35

91,67

86,21

0,75

73,53

91,67

81,03

0,8

61,76

91,67

74,14

0,85

47,06

91,67

65,52

0,9

41,18

91,67

62,07

0,95

29,41

100,00

58,62

1,0

0,00

100,00

41,38

Predicciones para FATAL

Observado

Ajustado

LC Inferior 95,0%

LC Superior 95,0%

Fila

Límite de Conf.

Límite de Conf.

Esta tabla muestra un resumen de la capacidad predictiva del modelo ajustado. Primero, el modelo se usa para predecir la respuesta utilizando la información en cada fila del archivo de datos. Si el valor predicho es mayor que el punto de corte, la respuesta es predicha como CIERTA. Si el valor predicho es menor o igual que el punto de corte, la respuesta es predicha como FALSA. Esta tabla muestra el porcentaje de datos observados predichos correctamente a diferentes valores de punto de corte. Por ejemplo, usando un punto de corte igual a 0,65, 85,2941% de todas las respuestas CIERTAS fueron predichas correctamente, en tanto que 91,6667% de todas las respuestas FALSAS fueron predichas correctamente, para un total de 87,931%. Usar el valor de corte que maximiza el porcentaje correcto total puede ser un buen valor para predecir individuos adicionales.

También se muestran en la tabla los valores observados y los predichos de FATAL para cada fila en el archivo de datos que contiene los datos completos de los factores en el modelo. Intervalos de confianza del 95,0% para la proporción media verdadera correspondiente a cada fila, también aparecen. Para hacer predicciones a otras combinaciones, agregue filas adicionales a su archivo de datos con información sobre los factores pero deje vacía la celda para la variable dependiente. Cuando regrese a esta ventana, se habrán agregado las predicciones para las nuevas filas a la salida.

Monografias.com

Residuos Atípicos para FATAL

Y

Residuo

Residuo de

Fila

Y

Predicha

Residuo

Pearson

Desviación

23

0,0

0,93224

-0,93224

-3,71

-2,32

31

1,0

0,137371

0,862629

2,51

1,99

35

0,0

0,910219

-0,910219

-3,18

-2,20

49

1,0

0,194473

0,805527

2,04

1,81

La tabla de residuos atípicos lista todas las observaciones que tienen residuos Pearson ó residuos de desviación mayores que 2 en valor absoluto. Estos residuos estandarizados miden a cuántas desviaciones estándar se encuentra cada valor observado de FATAL, del modelo ajustado. En este caso, hay 4 residuos estandarizados mayores que 2, 2 mayores que 3. Debería examinar con cuidado los residuos estandarizados mayores que 3 para determinar su corresponden a observaciones aberrantes que debieran ser eliminadas del modelo y tratadas por separado.

Aplicación de la regresión logística

Caso: Diabetes

La regresión logística puede ser utilizada para predecir si un paciente tiene una enfermedad determinada, por ejemplo la diabetes, en base a las características observadas del paciente: edad, sexo, índice de masa corporal , los resultados de diversos análisis de sangre , los hábitos de licor y tabaco, el peso, la edad y otras.

Para ilustrar la aplicación del procedimiento "Hacia Atrás" de la regresión logística se ha tomado una data real y un modelo arbitrario para tratar de establecer una asociación entre la aparición de la diabetes y algunos de los factores considerados.

Regresión Logística - diabetes

Variable dependiente: diabetes

Factores:

Acido Úrico

Cintura

Colesterol

Edad

Glicemia

Hdl Colesterol

Hematocritos

Hemoglobina

Insulina

Idl Colesterol

Licor

Obesidad

PAS

Peso

Relac-Cintura

Porcentaje de desviación explicada = 14,64% Porcentaje ajustado = 4,25%

Selección de factores por etapas

Método: selección hacia atrás

P-para-introducir: 0,05

P-para-eliminar: 0,05

Paso 0:

16 factores en el modelo. 69 g.l. para el error.

Porcentaje de desviación explicada = 21,09% Porcentaje ajustado = 0,00%

Paso 1:

Eliminando factor licor con P-para-eliminar = 0,857638

15 factores en el modelo. 70 g.l. para el error.

Porcentaje de desviación explicada = 21,06% Porcentaje ajustado = 0,00%

Paso 2:

Eliminando factor edad con P-para-eliminar = 0,78514

14 factores en el modelo. 71 g.l. para el error.

Porcentaje de desviación explicada = 21,00% Porcentaje ajustado = 0,00%

Paso 3:

Eliminando factor pas con P-para-eliminar = 0,781539

13 factores en el modelo. 72 g.l. para el error.

Porcentaje de desviación explicada = 20,93% Porcentaje ajustado = 0,00%

Paso 4:

Eliminando factor relacion_cintura_ con P-para-eliminar = 0,679944

12 factores en el modelo. 73 g.l. para el error.

Porcentaje de desviación explicada = 20,79% Porcentaje ajustado = 0,00%

Paso 5:

Eliminando factor glicemia con P-para-eliminar = 0,641657

11 factores en el modelo. 74 g.l. para el error.

Porcentaje de desviación explicada = 20,60% Porcentaje ajustado = 0,00%

Paso 6:

Eliminando factor Hematocritos con P-para-eliminar = 0,601525

10 factores en el modelo. 75 g.l. para el error.

Porcentaje de desviación explicada = 20,36% Porcentaje ajustado = 1,30%

Paso 7:

Eliminando factor Insulina con P-para-eliminar = 0,442175

9 factores en el modelo. 76 g.l. para el error.

Porcentaje de desviación explicada = 19,85% Porcentaje ajustado = 2,52%

Paso 8:

Eliminando factor Peso con P-para-eliminar = 0,354938

8 factores en el modelo. 77 g.l. para el error.

Porcentaje de desviación explicada = 19,11% Porcentaje ajustado = 3,51%

Paso 9:

Eliminando factor Colesterol con P-para-eliminar = 0,331771

7 factores en el modelo. 78 g.l. para el error.

Porcentaje de desviación explicada = 18,29% Porcentaje ajustado = 4,43%

Paso 10:

Eliminando factor Hemoglobina con P-para-eliminar = 0,143632

6 factores en el modelo. 79 g.l. para el error.

Porcentaje de desviación explicada = 16,44% Porcentaje ajustado = 4,31%

Paso 11:

Eliminando factor Hdl colesterol con P-para-eliminar = 0,14992

5 factores en el modelo. 80 g

Paso 12:

Eliminando factor Cintura con P-para-eliminar = 0,143296

4 factores en el modelo. 81 g.l. para el error.

Porcentaje de desviación explicada = 12,79% Porcentaje ajustado = 4,13%

Paso 13:

Eliminando factor Triglicéridos con P-para-eliminar = 0,212916

3 factores en el modelo. 82 g.l. para el error.

Porcentaje de desviación explicada = 11,44% Porcentaje ajustado = 4,51%

Paso 14:

Eliminando factor Acido úrico con P-para-eliminar = 0,0968498

2 factores en el modelo. 83 g.l. para el error.

Porcentaje de desviación explicada = 9,06% Porcentaje ajustado = 3,86%

Modelo final seleccionado.

La salida muestra los resultados de ajustar un modelo de regresión logística para describir la relación entre diabetes y 16 variables independientes. La ecuación del modelo ajustado es

diabetes = exp(eta)/(1+exp(eta))

en donde

eta = -0,411468 - 0,000874581* LDL Colesterol + 1,34451*obesidad

Como el P-valor de la tabla de Análisis de Desviaciones es menor que 0,05, existe una relación estadísticamente significativa entre las variables, con un nivel de confianza del 95,0%.

El P-valor para los residuos es mayor o igual que 0,05, indicando que el modelo no es significativamente peor que el mejor modelo posible para estos datos con un nivel de confianza del 95,0% o mayor.

El porcentaje de desviación de diabetes explicado por el modelo es igual a 9,05634%. Este estadístico es similar al estadístico R-Cuadrado y es apropiado para comparar modelos con diferente número de variables independientes, es 3,8582%.

Para determinar si el modelo puede ser simplificado, se nota que el P- valor más alto para las pruebas de verosimilitud es 0,0279, que pertenece a LDL Colesterol . Como el valor-P es menor que 0,05, ese término es estadísticamente significativo al nivel de confianza del 95,0%.

En consecuencia, no se debe eliminar ninguna variable del modelo y la ecuación del modelo ajustado es:

diabetes = exp(eta)/(1+exp(eta))

en donde

eta = -0,411468 - 0,000874581* LDL Colesterol + 1,34451*Obesidad

Predicción con el modelo

La tabla muestra un resumen de la capacidad predictiva del modelo ajustado, el modelo se usa para predecir la respuesta utilizando la información en cada fila del archivo de datos.

Si el valor predicho es mayor que el punto de corte, la respuesta es predicha como CIERTA, si el valor predicho es menor o igual que el punto de corte, la respuesta es predicha como FALSA.

Se tabula el porcentaje de datos observados predichos correctamente a diferentes valores de punto de corte.

Usando un punto de corte igual a 0,65, el 26,4% de todas las respuestas CIERTAS fueron predichas correctamente.

El 92,3% de todas las respuestas FALSAS fueron predichas correctamente, para un total de 66,27%.

Se puede usar el valor de corte que maximiza el porcentaje correcto total para predecir individuos adicionales.