Regresión aplicada a la logística

Enviado por Yunior Andrés Castillo Silverio

Partes: 1, 2

La regresión logística
Data – hepatitis
Aplicación de la regresión logística
La regresión Probit
Aplicaciones de la regresión Probit
Ejemplo de un análisis Probit

La regresión logística

La regresión logística es una herramienta estadística con una gran capacidad para el análisis de datos de la investigación clínica, de la investigación tecnológica, de la ingeniería y de la epidemiología.

Monografias.com

La regresión logística se usa para analizar los problemas en los cuales hay una o más variables independientes que determinan un resultado que se mide con una variable dicótoma que toma solamente dos posibles resultados.

También puede ser usada para estimar la probabilidad de aparición de cada una de las posibilidades de un suceso con más de dos categorías (politómico).

En la regresión logística, la variable dependiente es binaria o dicótoma, es decir contiene solamente los datos cifrados como 1 (VERDADERO) o 0 (FALSO), con ella se utiliza un modelo matemático, la transformación logit, para predecir el comportamiento de la variable dependiente.

La regresión logística intenta modelar la relación entre la probabilidad (proporción) de una respuesta positiva y las variables explicativas, los valores numéricos de 0 y 1 se asignan a las dos categorías de una variable binaria, el 0 representa una respuesta negativa y el 1 representa una respuesta positiva, la media de esta variable será la proporción de respuestas positivas

Esta técnica modela cómo influye en la probabilidad de aparición de un suceso, habitualmente dicotómico, la presencia o no de diversos factores y el valor o nivel de los mismos, ella precisa el efecto de un grupo de variables, consideradas potencialmente influyentes, sobre la ocurrencia de un determinado proceso.

La regresión logística compite con el análisis discriminante como un método para analizar las variables de respuesta discreta, la regresión logística es más versátil y más adecuada que el análisis discriminante porque no asumen que las variables independientes se distribuyen normalmente.

Esta herramienta resulta de gran utilidad para establecer el efecto de un grupo de variables, consideradas potencialmente influyentes, sobre la ocurrencia de un determinado proceso.

Se clasifica el valor de la variable respuesta como 0 cuando no se presenta el suceso y con el valor 1 cuando sí está presente y si se busca cuantificar la posible relación entre la presencia del suceso y, un posible factor de riesgo y se toma cómo variable dependiente la probabilidad p de que ocurra el suceso y se construye la siguiente función:

Ln(p/1-p)

La relación p/(1-p) es llamada las probabilidades y el logit es el logaritmo de las probabilidades, o sólo probabilidades de registro.

Si se tiene una variable p que puede tomar cualquier valor, por lo se puede elaborar para ella una ecuación de regresión tradicional:

Ln(p/1-p) = a + bx

Este es el tipo de ecuación que se conoce como modelo logístico, donde puede haber varios factores:

Ln(p/1-p) = b1X1+ b2X2+ b3X3 + b4X4

El odds (OR)

Una manera, de representar la probabilidad de ocurrencia de un evento es mediante el cociente entre la probabilidad de que ocurra el evento y la probabilidad de que no ocurra, este cociente, se denomina odds e indica cuanto más probable es la ocurrencia del evento que su no ocurrencia, y es un parámetro de cuantificación de riesgo.

odds = (p/1-p)

donde p es la probabilidad de que ocurra el suceso.

El OR es parecido al riesgo relativo que corresponde al cociente de la probabilidad de que aparezca un suceso cuando el factor está presente dividido por la probabilidad de que aparezca un suceso cuando el factor no está presente.

Si en la ecuación de regresión se tiene un factor dicotómico, el coeficiente b de la ecuación para el factor dicotómico está directamente relacionado con el OR de la presencia o no presencia del factor.

El OR = exp(b) es una medida que cuantifica el riesgo que representa poseer el factor correspondiente respecto a no poseerlo.

Ejemplo

Sea p(x) la probabilidad de éxito cuando el valor de la variable predictora es x.

Entonces será:

Monografias.com

Cuando x = 50, un éxito es dos veces tan probable como una falla, los odds son 2 a 1.

Regresión Logística

Caso 1: Hepatitis

Para estudiar, la asociación entre la hepatitis B y el consumo de alcohol, el consumo de drogas y el ambiente, se dispone de una data hipotética donde se registra el consumo diario de alcohol en gramos , el consumo de otras drogas como 0: no y 1: sí, 10 ambientes y 0: hepatitis y 1: no hepatitis.

Data – hepatitis

Monografias.com

Los resultados de la regresión logística

Los resultados de la regresión logística se presentan en una tabla en la que aparecerá para cada variable el valor del coeficiente; su error estándar; un parámetro, denominado de chi² Wald, que permite contrastar si el coeficiente es significativamente diferente de 0 y el valor de p para ese contraste; así como los OR de cada variable, junto con su intervalo de confianza para el 95 % de confianza.

SOLUCION

PASO UNO

Regresión Logística

Variable Dependiente: HEPATITIS

Factores:

CONSUMO ALCOHOL

DROGAS

AMBIENTE

La salida demuestra los resultados de correr un modelo de regresión logística para describir la relación entre HEPATITIS y 3 variables independientes: CONSUMO ALCOHOL, DROGAS y AMBIENTE

Máximo Verosímil

Parámetro		Estimado	Error	Odds Ratio
CONSTANTE		3,91042	1,78831
CONSUMO ALCOHOL		-0,0664747	0,0321958	0,935687
DROGAS		-4,16478	1,48639	0,0155331
AMBIENTE		0,0982208	0,251774	1,10321
n	30
MSE	0,00915563
MAE	0,241008
ME	0,0452538

Análisis de Errores

Fuente	Errores	Df	P-Valor
Modelo	21,5897	3	0,0001
Residual	16,6011	26	0,9206
Total (corr.)	38,1909	29

Porcentaje de errores explicado por el modelo = 56,5312

Porcentaje Ajustado = 35,5837

Test de Verosimilitud

Factor	Chi-cuadrado	Df	P-Value
CONSUMO ALCOHOL	6,63749	1	0,0100
DROGAS	12,8008	1	0,0003
AMBIENTE	0,153101	1	0,6956

La ecuación del modelo es: HEPATITIS = exp(eta)/(1+exp(eta))

donde eta = 3.910 – ALCOHOL 0,06647*CONSUMO – 4,164*DROGAS + 0,09822*AMBIENTE

El P-valor para el modelo en el análisis es menor de 0.05, por lo que hay una relación estadística significativa entre las variables en el nivel de confianza del 95.0%.

El P-valor para las residuales es mayor o igual 0.05, indicando que el modelo no es perceptiblemente peor que el mejor modelo para estos datos al 95.0% de confianza o a un nivel de confianza más alto.

El porcentaje del error de HEPATITIS explicado por el modelo es el 56.5312%, esta estadística es similar a la estadística R-Ajustada

El porcentaje ajustado que es más conveniente para comparar modelos con diversos números de variables independientes, es del 35.5837%.

En la determinación de si el modelo puede ser simplificado, se nota que el P-valor más alto para las pruebas de probabilidad es 0.6956, perteneciendo a AMBIENTE.

Por ser el P-valor mayor o igual a 0.05, ese término no es estadísticamente significativo a un nivel de confianza de 95.0% o a un nivel de confianza más alto.

Por lo tanto, se debe considerar la eliminación de la variable AMBIENTE del modelo

PASO DOS

Regresión Logística – HEPATITIS

Variable Dependiente: HEPATITIS

Factores:

CONSUMO ALCOHOL DROGAS

La salida muestra los resultados de correr un modelo de regresión logístico para describir la relación entre la HEPATITIS y las variables independientes: CONSUMO DE ALCOHOL y DROGAS

Máximo Verosímil

		Standard	Estimada
Parámetro	Estimados	Error	Odds Ratio
CONSTANTE	4,26428	1,57043
CONSUMO ALCOHOL	-0,0613085	0,0280866	0,940533
DROGAS	-4,19821	1,48344	0,0150225

Análisis de Errores

Fuente	Errores	Df	P-Valor
Modelo	21,4366	2	0,0000
Residual	16,7542	27	0,9370
Total (corr.)	38,1909	29

Porcentaje de errores explicado por el modelo = 56,1303

Pocentaje Ajustado = 40,4197

Test de Verosimilitud

Factor	Chi-cuadrado	Df	P-Valor
CONSUMO ALCOHOL	6,79961	1	0,0091
DROGAS	13,1689	1	0,0003

Análisis de Errores

	Estimación
N	30
MSE	0,00929903
MAE	0,244613
MAPE
ME	0,042021

El porcentaje de los errores en la HEPATITIS explicada por el modelo con dos factores es del 56.13%, esta estadística es similar a la estadística R-Ajustada

El porcentaje ajustado, que es más conveniente para comparar modelos con diversos números de variables independientes, es de 40.4197%.

Para determinar si el modelo puede ser simplificado, se observa que el P-valor más alto para las pruebas de probabilidad es 0.0091, perteneciendo al CONSUMO de ALCOHOL, este P-valor es menor de 0.05 y es un estadístico significativo a un nivel del 95.0%. Por lo tanto, no se debe remover ninguna variable del modelo.

Por ser el P-valor del modelo menor de 0.05, hay una relación estadística significativa entre las variables a un nivel de confianza del 95.0%.

El P-valor para las residuales es mayor o igual 0.05, indicando que el modelo no es peor que el mejor de los modelos para estos datos a un nivel de confianza 95.0% o para un nivel de confianza más alto.

La ecuación del modelo final es: HEPATITIS = exp(eta)/(1+exp(eta) Donde:

eta=4,26428 -0,0613085*CONSUMO ALCOHOL – 4,19821*DROGAS

REGRESION LOGÍSTICA

CASO 2: COLISIONES

Se propone aplicar la regresión logística para determinar la asociación entre el resultado fatal de las colisiones de autos y la edad del conductor, la velocidad del auto y la aceleración, se dispone de una data hipotética donde se registra la edad en años, la velocidad , la aceleración y el resultado fatal: 0: fatal y 1: no fatal.

Monografias.com

Regresión Logística – FATAL

Variable dependiente: FATAL

Factores:

EDAD

VELOCIDAD

ACELERACION

Modelo Estimado de Regresión (Máxima Verosimilitud)

		Error	Razón de Momios
Parámetro	Estimado	Estándar	Estimada
CONSTANTE	-16,9845	5,14861
EDAD	0,162501	0,041448	1,17645
VELOCIDAD	0,233906	0,0862681	1,26353

Análisis de Desviación

Fuente	Desviación	Gl	Valor-P
Modelo	33,3408	2	0,0000
Residuo	45,3315	55	0,8206
Total (corr.)	78,6723	57

Porcentaje de desviación explicado por el modelo = 42,3793

Porcentaje ajustado = 34,7527

Pruebas de Razón de Verosimilitud

Factor	Chi-Cuadrada	Gl	Valor-P
EDAD	29,9333	1	0,0000
VELOCIDAD	10,0497	1	0,0015

Análisis de Residuos

	Estimación
n	58
CME	0,0221508
MAE	0,340955
ME	0,00127246

Selección de factores por etapas

Método: selección hacia atrás

P-para-introducir: 0,05

P-para-eliminar: 0,05

Paso 1:

3 factores en el modelo. 54 g.l. para el error.

Porcentaje de desviación explicada = 44,10% Porcentaje ajustado = 33,93%

Paso 2:

Eliminando factor ACELERACION con P-para-eliminar = 0,244299

2 factores en el modelo. 55 g.l. para el error.

Porcentaje de desviación explicada = 42,38% Porcentaje ajustado = 34,75%

Modelo final seleccionado.

La salida muestra los resultados de ajustar un modelo de regresión logística para describir la relación entre FATAL y 3 variable(s) independiente(s). La ecuación del modelo ajustado es

FATAL = exp(eta)/(1+exp(eta)) en donde

eta = -16,9845 + 0,162501*EDAD + 0,233906*VELOCIDAD

Como el valor-P de la tabla de Análisis de Desviaciones es menor que 0,05, existe una relación estadísticamente significativa entre las variables, con un nivel de confianza del 95,0%. Además, el valor-P para los residuos es mayor o igual que 0,05, indicando que el modelo no es significativamente peor que el mejor modelo posible para estos datos con un nivel de confianza del 95,0% o mayor.

También se muestra que el porcentaje de desviación de FATAL explicado por el modelo es igual a 42,3793%. Este estadístico es similar al estadístico R-Cuadrada habitual. El porcentaje ajustado, que es más apropiado para comparar modelos con diferente número de variables independientes, es 34,7527%.

Para determinar si el modelo puede ser simplificado, note que el valor-P más alto para las pruebas de verosimilitud es 0,0015, que pertenece a VELOCIDAD. Como el valor-P es menor que 0,05, ese término es estadísticamente significativo al nivel de confianza del 95,0%. Consecuentemente, usted probablemente no quisiera eliminar ninguna variable del modelo.

Monografias.com

Prueba Chi-Cuadrada de Bondad de Ajuste

	Intervalo		CIERTO	CIERTO	FALSO	FALSO
Clase	Logit	n	Observado	Esperado	Observado	Esperado
1	menor que -1,71418	12	1,0	1,04084	11,0	10,9592
2	-1,71418 a 0,203801	13	4,0	4,5982	9,0	8,4018
3	0,203801 a 1,41271	11	9,0	7,92633	2,0	3,07367
4	1,41271 a 2,93429	12	10,0	10,6205	2,0	1,37951
5	2,93429 o mayor	10	10,0	9,81415	0,0	0,185851
Total		58	34,0		24,0

Chi-cuadrada = 1,14736 con 3 g.l. valor-P = 0,765653

Esta prueba determina si la función logística ajusta adecuadamente a los datos observados. Como el valor-P es mayor o igual que 0,05, no hay razón para rechazar la adecuación del modelo ajustado con un nivel de confianza del 95,0% ó mayor.

Monografias.com

Intervalos de confianza del 95,0% para los estimados de los coeficientes

		Error
Parámetro	Estimado	Estándar	Límite Inferior	Límite Superior
CONSTANTE	-16,9845	5,14861	-27,3026	-6,66641
EDAD	0,162501	0,041448	0,0794369	0,245564
VELOCIDAD	0,233906	0,0862681	0,0610201	0,406791

Intervalos de confianza del 95,0%

Parámetro	Estimado	Límite Inferior	Límite Superior
EDAD	1,17645	1,08268	1,27834
VELOCIDAD	1,26353	1,06292	1,50199

La tabla muestra intervalos de confianza del 95,0% para los coeficientes en el modelo. Los intervalos de confianza muestran con que precisión se pueden estimar los coeficientes dada la cantidad de datos disponibles y del ruido que está presente. También se muestran los intervalos de confianza para la razón de momios. La razón de momios es igual al inverso del logaritmo natural del coeficiente y muestra el cambio proporcional en la variable de respuesta cuando se incrementa la variable independiente en 1 unidad.

Monografias.com

Matriz de correlación para los coeficientes estimados

	CONSTANTE	EDAD	VELOCIDAD
CONSTANTE	1,0000	-0,7304	-0,9665
EDAD	-0,7304	1,0000	0,5416
VELOCIDAD	-0,9665	0,5416	1,0000

Esta tabla muestra las correlaciones estimadas entre los coeficientes en el modelo ajustado. Estas correlaciones pueden usarse para detectar la presencia de multicolinearidad seria, es decir, correlación entre las variables predictoras. En este caso, hay 1 correlación con valor absoluto mayor que 0,5.

Monografias.com

Desempeño de Predicción – Porcentaje Correcto

Punto de Corte	CIERTO	FALSO	Total
0,0	100,00	0,00	58,62
0,05	100,00	8,33	62,07
0,1	100,00	29,17	70,69
0,15	97,06	37,50	72,41
0,2	94,12	54,17	77,59
0,25	94,12	62,50	81,03
0,3	94,12	62,50	81,03
0,35	91,18	62,50	79,31
0,4	88,24	62,50	77,59
0,45	88,24	70,83	81,03
0,5	88,24	75,00	82,76
0,55	88,24	79,17	84,48
0,6	85,29	87,50	86,21
0,65	85,29	91,67	87,93
0,7	82,35	91,67	86,21
0,75	73,53	91,67	81,03
0,8	61,76	91,67	74,14
0,85	47,06	91,67	65,52
0,9	41,18	91,67	62,07
0,95	29,41	100,00	58,62
1,0	0,00	100,00	41,38

Predicciones para FATAL

	Observado		Ajustado		LC Inferior 95,0%			LC Superior 95,0%
Fila					Límite de Conf.			Límite de Conf.

Esta tabla muestra un resumen de la capacidad predictiva del modelo ajustado. Primero, el modelo se usa para predecir la respuesta utilizando la información en cada fila del archivo de datos. Si el valor predicho es mayor que el punto de corte, la respuesta es predicha como CIERTA. Si el valor predicho es menor o igual que el punto de corte, la respuesta es predicha como FALSA. Esta tabla muestra el porcentaje de datos observados predichos correctamente a diferentes valores de punto de corte. Por ejemplo, usando un punto de corte igual a 0,65, 85,2941% de todas las respuestas CIERTAS fueron predichas correctamente, en tanto que 91,6667% de todas las respuestas FALSAS fueron predichas correctamente, para un total de 87,931%. Usar el valor de corte que maximiza el porcentaje correcto total puede ser un buen valor para predecir individuos adicionales.

También se muestran en la tabla los valores observados y los predichos de FATAL para cada fila en el archivo de datos que contiene los datos completos de los factores en el modelo. Intervalos de confianza del 95,0% para la proporción media verdadera correspondiente a cada fila, también aparecen. Para hacer predicciones a otras combinaciones, agregue filas adicionales a su archivo de datos con información sobre los factores pero deje vacía la celda para la variable dependiente. Cuando regrese a esta ventana, se habrán agregado las predicciones para las nuevas filas a la salida.

Monografias.com

Residuos Atípicos para FATAL

		Y		Residuo	Residuo de
Fila	Y	Predicha	Residuo	Pearson	Desviación
23	0,0	0,93224	-0,93224	-3,71	-2,32
31	1,0	0,137371	0,862629	2,51	1,99
35	0,0	0,910219	-0,910219	-3,18	-2,20
49	1,0	0,194473	0,805527	2,04	1,81

La tabla de residuos atípicos lista todas las observaciones que tienen residuos Pearson ó residuos de desviación mayores que 2 en valor absoluto. Estos residuos estandarizados miden a cuántas desviaciones estándar se encuentra cada valor observado de FATAL, del modelo ajustado. En este caso, hay 4 residuos estandarizados mayores que 2, 2 mayores que 3. Debería examinar con cuidado los residuos estandarizados mayores que 3 para determinar su corresponden a observaciones aberrantes que debieran ser eliminadas del modelo y tratadas por separado.

Aplicación de la regresión logística

Caso: Diabetes

La regresión logística puede ser utilizada para predecir si un paciente tiene una enfermedad determinada, por ejemplo la diabetes, en base a las características observadas del paciente: edad, sexo, índice de masa corporal , los resultados de diversos análisis de sangre , los hábitos de licor y tabaco, el peso, la edad y otras.

Para ilustrar la aplicación del procedimiento "Hacia Atrás" de la regresión logística se ha tomado una data real y un modelo arbitrario para tratar de establecer una asociación entre la aparición de la diabetes y algunos de los factores considerados.

Regresión Logística – diabetes

Variable dependiente: diabetes

Factores:

Acido Úrico	Cintura	Colesterol	Edad	Glicemia
Hdl Colesterol	Hematocritos	Hemoglobina	Insulina	Idl Colesterol
Licor	Obesidad	PAS	Peso	Relac-Cintura

Porcentaje de desviación explicada = 14,64% Porcentaje ajustado = 4,25%

Selección de factores por etapas

Método: selección hacia atrás

P-para-introducir: 0,05

P-para-eliminar: 0,05

Paso 0:

16 factores en el modelo. 69 g.l. para el error.

Porcentaje de desviación explicada = 21,09% Porcentaje ajustado = 0,00%

Paso 1:

Eliminando factor licor con P-para-eliminar = 0,857638

15 factores en el modelo. 70 g.l. para el error.

Porcentaje de desviación explicada = 21,06% Porcentaje ajustado = 0,00%

Paso 2:

Eliminando factor edad con P-para-eliminar = 0,78514

14 factores en el modelo. 71 g.l. para el error.

Porcentaje de desviación explicada = 21,00% Porcentaje ajustado = 0,00%

Paso 3:

Eliminando factor pas con P-para-eliminar = 0,781539

13 factores en el modelo. 72 g.l. para el error.

Porcentaje de desviación explicada = 20,93% Porcentaje ajustado = 0,00%

Paso 4:

Eliminando factor relacion_cintura_ con P-para-eliminar = 0,679944

12 factores en el modelo. 73 g.l. para el error.

Porcentaje de desviación explicada = 20,79% Porcentaje ajustado = 0,00%

Paso 5:

Eliminando factor glicemia con P-para-eliminar = 0,641657

11 factores en el modelo. 74 g.l. para el error.

Porcentaje de desviación explicada = 20,60% Porcentaje ajustado = 0,00%

Paso 6:

Eliminando factor Hematocritos con P-para-eliminar = 0,601525

10 factores en el modelo. 75 g.l. para el error.

Porcentaje de desviación explicada = 20,36% Porcentaje ajustado = 1,30%

Paso 7:

Eliminando factor Insulina con P-para-eliminar = 0,442175

9 factores en el modelo. 76 g.l. para el error.

Porcentaje de desviación explicada = 19,85% Porcentaje ajustado = 2,52%

Paso 8:

Eliminando factor Peso con P-para-eliminar = 0,354938

8 factores en el modelo. 77 g.l. para el error.

Porcentaje de desviación explicada = 19,11% Porcentaje ajustado = 3,51%

Paso 9:

Eliminando factor Colesterol con P-para-eliminar = 0,331771

7 factores en el modelo. 78 g.l. para el error.

Porcentaje de desviación explicada = 18,29% Porcentaje ajustado = 4,43%

Paso 10:

Eliminando factor Hemoglobina con P-para-eliminar = 0,143632

6 factores en el modelo. 79 g.l. para el error.

Porcentaje de desviación explicada = 16,44% Porcentaje ajustado = 4,31%

Paso 11:

Eliminando factor Hdl colesterol con P-para-eliminar = 0,14992

5 factores en el modelo. 80 g

Paso 12:

Eliminando factor Cintura con P-para-eliminar = 0,143296

4 factores en el modelo. 81 g.l. para el error.

Porcentaje de desviación explicada = 12,79% Porcentaje ajustado = 4,13%

Paso 13:

Eliminando factor Triglicéridos con P-para-eliminar = 0,212916

3 factores en el modelo. 82 g.l. para el error.

Porcentaje de desviación explicada = 11,44% Porcentaje ajustado = 4,51%

Paso 14:

Eliminando factor Acido úrico con P-para-eliminar = 0,0968498

2 factores en el modelo. 83 g.l. para el error.

Porcentaje de desviación explicada = 9,06% Porcentaje ajustado = 3,86%

Modelo final seleccionado.

La salida muestra los resultados de ajustar un modelo de regresión logística para describir la relación entre diabetes y 16 variables independientes. La ecuación del modelo ajustado es

diabetes = exp(eta)/(1+exp(eta))

en donde

eta = -0,411468 – 0,000874581* LDL Colesterol + 1,34451*obesidad

Como el P-valor de la tabla de Análisis de Desviaciones es menor que 0,05, existe una relación estadísticamente significativa entre las variables, con un nivel de confianza del 95,0%.

El P-valor para los residuos es mayor o igual que 0,05, indicando que el modelo no es significativamente peor que el mejor modelo posible para estos datos con un nivel de confianza del 95,0% o mayor.

El porcentaje de desviación de diabetes explicado por el modelo es igual a 9,05634%. Este estadístico es similar al estadístico R-Cuadrado y es apropiado para comparar modelos con diferente número de variables independientes, es 3,8582%.

Para determinar si el modelo puede ser simplificado, se nota que el P- valor más alto para las pruebas de verosimilitud es 0,0279, que pertenece a LDL Colesterol . Como el valor-P es menor que 0,05, ese término es estadísticamente significativo al nivel de confianza del 95,0%.

En consecuencia, no se debe eliminar ninguna variable del modelo y la ecuación del modelo ajustado es:

diabetes = exp(eta)/(1+exp(eta))

en donde

eta = -0,411468 – 0,000874581* LDL Colesterol + 1,34451*Obesidad

Predicción con el modelo

La tabla muestra un resumen de la capacidad predictiva del modelo ajustado, el modelo se usa para predecir la respuesta utilizando la información en cada fila del archivo de datos.

Si el valor predicho es mayor que el punto de corte, la respuesta es predicha como CIERTA, si el valor predicho es menor o igual que el punto de corte, la respuesta es predicha como FALSA.

Se tabula el porcentaje de datos observados predichos correctamente a diferentes valores de punto de corte.

Usando un punto de corte igual a 0,65, el 26,4% de todas las respuestas CIERTAS fueron predichas correctamente.

El 92,3% de todas las respuestas FALSAS fueron predichas correctamente, para un total de 66,27%.

Se puede usar el valor de corte que maximiza el porcentaje correcto total para predecir individuos adicionales.

Partes: 1, 2

Página siguiente