ESTIMACION DE PROPORCIONES
¿Un problema aún no resuelto?
JAIRO ALFONSO CLAVIJO MENDEZ
Universidad del Tolima
Este documento tiene como fin hacer una síntesis tal vez incompleta del trabajo
que se ha realizado a lo largo de casi 100 años para lograr una manera práctica de
estimar una proporción.
Presentación del problema
Supóngase que estamos en una población finita de tamaño N conformada por
elementos de dos clases:
A de ellos del tipo E (éxitos) y
N ??A del tipo
F(fracasos).
A
N
elementos A ” o simplemente proporción cuando es claro a cuáles elementos
estamos haciendo referencia.
Nuestro objetivo inmediato es estimar ????mediante una muestra
? de
n
elementos seleccionados de la población bajo muestreo aleatorio simple (M.A.S).
El problema, aparentemente sencillo, ha sido objeto de estudio durante casi 100
años sin que se pueda afirmar que en este momento haya una solución completa y
definitiva para el mismo.
Comencemos diciendo que al aplicar M.A.S para seleccionar la muestra, la primera
unidad muestral tiene probabilidad
A
N
de ser seleccionada. Las subsecuentes
unidades tienen probabilidades que dependen del método de selección: si el
muestreo se hace con reemplazamiento, todas tienen la misma
probabilidad
A
N
,
de ser seleccionadas, pero si el muestreo se hace sin reemplazamiento, esta
probabilidad va cambiando. En el primer caso, la variable X que cuenta el número
de éxitos en la muestra, se ajusta a un modelo binomial de parámetros ?? n . En
V(X) ????
? ?? n??(1????)
n??(1????)
el segundo caso, a un modelo hipergeométrico de parámetros N, A,n. Es decir, la
probabilidad de que haya x éxitos en la muestra está dadapor:
???n? ?
?? ??
??
???x???n ??x ? SIN reemplazamiento
?
?
? ? ??n ??
?
E(X) ??n??
En ambos casos se tiene
diferentes, dadas por:
pero las varianzas tienen expresiones
N ??n
CON reemplazamiento
SIN reemplazamiento
?? N ?1
Nótese que la diferencia entre ambas varianzas está determinada por el factor
N ??n
que tiende a 1 cuando
poblaciones infinitas o muy grandes, podría decirse que V( X ) ??n??(1???) a
menos que la muestra se tome CON reemplazamiento. En la práctica se utiliza más
el muestreo SIN reposición pero se usan las fórmulas del muestreo
CON
)
reposición, lo que ya trae consecuencias indeseables especialmente si la población
Por lo anterior, si tomamos una muestra grande, podemos asumir que
X ~ B(n,?? y -siguiendo a A. Wald- usar una aproximación normal para
calcular Pr(X ??x) . Esto es:
???
X ??E( X ) X ??n? n
V(X) ??????n?(1??) ??????(1??? ~ N(0,1)
E(p) ?? E(X) ?? (n??) ????, razón por la cual
Al hacer
se cumple
p ?? n
??
p ?? n
p???
? ??
?
n
n ???
Z ??
X
?
?
X ?
n
1 1
n n
podemos utilizar X como estimador insesgado de
Se cumple entonces que Z ? ~ N(0,1) lo que nos lleva a considerar
?(1??)
el intervalo
?
?
?z?? , z??
2 2
n
?
(ver figura) que cubre una probabilidad 1??? para
Z
bajo la normal estándar.
Este intervalo, mediante transformaciones algebráicas simples, puede ser reescrito
como:
??p ??z
??
2
??(1????) , p ??z
??
2
??(1????) ??
??
Que es la fórmula conocida y más popular para construir el intervalo de confianza
para una proporción.
La fórmula anterior, además de la fuerte exigencia de una muestra y una población
grandes, tiene el inconveniente de que depende de??, el parámetro desconocido
que se pretende estimar. En la práctica ???se reemplaza por la estimación puntual
??
??
p(1? p) ? ??
n0 ??????2
1??? 0
p
lograda con la muestra, lo que no está del todo mal, ya que como lo muestra
Cochran, este cambio debería llevar a una expresión del tipo:
t
t
n?1, ??
2
p(1? p) , p ??
n?1
n?1, ??
2
??p ??
?
n?1 ??
??
?
?
?
Pero, al ser
n
grande,
el cuantil
tn?1, ??
2
puede considerarse bastante bien
aproximado por el cuantil normal
dividir entre
n.
z?
y dividir entre
2
n?1 es casi igual que
El uso de la aproximación normal exige entonces, además de una población muy
grande, un tamaño mínimo de muestra que debe ser conocido previamente para
garantizar la validez de dicha aproximación. Infortunadamente dicho tamaño de
establece que para ????0.5 es necesario cuando menos n ??30 . Para ????0.2 se
necesita n ??200 y para ????0.05 es necesario n ??1400. Sin embargo Newcombe
pone en duda la validez de estos valores señalando que con frecuencia ellos son
insuficientes.
En la práctica, como es sabido, los tamaños de muestra mínimos para poder usar
aproximación normal con un nivel de confianza y un error máximo de estimación
dados, se suelen calcular con las fórmulas:
2
y
z?? p(1??p)
e2
n ?
n0
n
N
cuya aplicación no se discute en este documento, señalando únicamente que con
frecuencia, son mal utilizadas.
Baste con decir, por ejemplo, que si el valor de ??estuviese alrededor de 0.2, la
estimación con un 95% de confianza y un error no mayor a 0.01 (que representa el
5% del valor de ??), exigiría una muestra no menor a 6147 unidades en una
población infinita o muy grande. Si el tamaño de la población fuese, por ejemplo,
N ??6000, la muestra se reduciría a 3037 elementos como mínimo.
Existe un consenso generalizado de que el método de aproximación normal visto
anteriormente tiene muy pobre desempeño, llegando incluso a
proporcionar
Sup???
????
Inf ???
????
??x(1????)n??x ?? ??? ? ? ?
??x(1????)n??x ?? ??? ? ? ?
estimaciones erróneas, sobre todo cuando la muestra es insuficiente, razón por la
cual nos gustaría contar con otros métodos que en lo posible no dependieran del
tamaño muestral. Varios de tales métodos han sido propuestos desde
1934
cuando Clopper y Pearson en un famoso artículo hicieron una propuesta basada
en la distribución Beta. La idea de tales métodos es usar la verdadera y exacta
probabilidad binomial y no la probabilidad aproximada con la normal. Por esta
razón son conocidos como métodos exactos. Son exactos no
porque
proporciones intervalos exactos –que también son aproximados- sino porque usan
la probabilidad exacta. Estos métodos en principio no dependen del tamaño de
n
para la construcción del Intervalo de confianza (IC) que siempre estará bien
construido aunque, como parece natural, valores muy pequeños de n
producirán
estimaciones poco precisas, es decir, intervalos muy amplios, con
las
L
2 n
consecuencias desagradables que se derivan de este hecho.
Supóngase pues que se tiene una muestra de tamaño n (el valor de n no ha sido
calculado por un método especial y, en principio, podría ser cualquiera definido
razonablemente, por ejemplo, por los costos del muestreo). Se busca un intervalo
??? , ?U??dentro del cual se encuentre ???con probabilidad 1??? donde ? es
un valor pequeño arbitrario (usualmente ????0.05). Es claro que X toma valores
enteros entre 0 y n , lo que nos dice que para x éxitos en la muestra, p tomará
, ,
, ,
? n n n n ??
discreta no será posible construir un intervalo con valores exactos. Sin embargo sí
es posible construir un intervalo con un cubrimiento de probabilidad de 1??? si se
resuelve simultáneamente las dos ecuaciones siguientes:
,
?
,
? ?
L
? ?
U
???
?
?
???
?
?
n
??
j ??x
x
??
j ??0
?
?
2??
?
2 ??
?
?
Tanto
??
L
como
?U
son funciones de
N, n, x
lo que hace particularmente
engorroso el cálculo de las expresiones anteriores.
??? ?n j ?? ?? ??j(1????)n??j =??fB(t)dt con
??????Sup???/ Pr( X ??x) ??????
? ??Inf ???/ Pr( X ??x) ???????bajo el supuesto
??n??
P( X ??x) ?????????i(1????)n?i
i????????n?
??n?? (n??i)??i(1????)n?i?1
??n?? i?1
n?1
??n?1?? i?1 ??n?1?? i
n?1
? ?? (1????)n?i ??? ??? (1????)
???n
?
?
?
f (x; a, b) ?? 1??
x (1??x)
?
?(a ??b) a?1
? ?(a)?(b)
X
Clopper y Pearson (1934) dieron una primera solución utilizando la distribución
Beta y la igualdad
n ??
fB(t) ??Probabilidad
j??x?? ? 0
acumulada bajo dicha distribución.
Más exactamente se trata de lo siguiente:
Se busca un intervalo (??L,?U) para el cual se cumpla:
y
U ? ??
? 2 ?
? 2 ??
L ? ?
de que X ~ B(n,??
)
Es claro que
y
x
I ?0??i??
P(X ??x) ?1??P(X ??x?1) .
Usando las identidades
??n? ??n?1?
??
y
podemos
??i ? ????i ?
??n? ??n?1??
(n??i)????????n? ??
??i ? ????i ??
?
?
calcular
?
??
n?i?1
?
n
P( X ??x) ??????? ?i?? (1????)n?i ?????? ?
i??x??i?? i??x??i??
n
i?x ??i?1?? i??x? i ??
(1)
??n??
= x???????x?1(1????)n??x ??0
??x??
?
Recordando la distribución Beta dada por:
X ~ B(a,b) ssi
a?1 b?1
ua?1(1?u)b?1du
0
b?1
? x
(1??x)
Concluímos que la probabilidad acumulada bajo esta distribución, hasta un punto
??
?(a)?(b)
0
Nótese que, según el teorema fundamental del cálculo, la derivada de
??n?
?(x)?(n? x??1)??
tx?1(1??t)n?xdt ??x? ?? ? ? x?1(1????)n?x
B??(x, n- x?1)=
?
es
??
?(n ?1)
0 ?x??
??n?? ?
x???????x?1(1????)n??x que no es otra cosa que la expresión (1).
??x??
En consecuencia,
Expresión que nos proporciona una relación entre la sumatoria en la coladerecha
de la binomial y la probabilidad acumulada bajo una Beta de parámetros
a ??x, b ??n??x?1
Consideraciones similares, haciendo los cambios pertinentes, permiten establecer
la siguiente identidad para el lado izquierdo de la sumatoria en labinomial:
Las expresiones (2) y (3) nos permiten afirmar que el intervalo de confianza para
??L , ?U ??= B??/2(x,
n??x?1) , B1???/2(x?1, n??x)
Expresión que más frecuentemente se presenta como
y que corresponde a la fórmula propuesta por Clopper y Pearson para construir el
intervalo de confianza.
Históricamente esta fórmula ha sido de gran importancia porque marcó el inicio de
una carrera investigativa alrededor del tema de la estimación de proporciones y
además porque ofreció una solución al problema en dos casos extremos: cuando
x ??0 y cuando x ??1 , para los que se tienen los correspondientes intervalos:
? 1 ? ? 1 ?
?
? situación insoluble bajo el método asintótico de Wald
? ? ? ??
?
El intervalo CP nunca será menor que la cobertura nominal pudiendo, por ende,
resultar más grande que lo deseado. A pesar de ser muy interesante y
promocionado por sus inventores como insuperable, puede haber otros métodos
aproximados que dan mejor cobertura. Así lo anuncia Agresti en un conocido
artículo, cuyo título es muy sugestivo (ver referencia 13).
A manera de ejemplo, mostraremos cómo usar un paquete muy versátil y gratuito
que puede ser descargado de Internet para construir intervalos de confianza
usando
la
fórmula
de
Clopper
y
Pearson.
Se
trata
de
PQRS
(http://members.home.nl/sytse.knypstra/PQRS/ )
Vamos a construir el intervalo de confianza del 95% para la proporción sabiendo
que en
una muestra de tamaño 40 hubo en total 8 éxitos. En este ejemplo
??/2 ???0.025
y 1???/ 2 ?? 0.975, por tanto:
B(x, n ??x?1,
????) ??B(8, 33, 0.025) ??0.0905
2
De la figura anterior se deduce
Análogamente:
B(x?1, n ??x, 1??? ) ??B(9, 32, 0.975) ??0.3565
De donde:
2
En conclusión, el intervalo de confianza correspondiente es: (0.0905 , 0.3565)
La página http://statpages.info/confint.html contiene una calculadora on line que
igualmente permite el cálculo del intervalo, como se ve en la siguientefigura:
Durante algún tiempo el método CP, propuesto por Clopper y Pearson fue
considerado como la regla de oro para estimar proporciones, sin embargo con el
paso de los años tal prestigio fue decayendo debido principalmente a que el
método CP es muy conservativo en el sentido de que 1??? no es el inf para la
probabilidad de cobertura. Esto es, los intervalos obtenidos resultan en general
más grandes que el verdadero.
En 1960 Blyth y Hutchinson publicaron un método que mejoraba la construcción de
los intervalos a partir de un artículo de profundización escrito por J. Neyman en
?
2(n??x?1), 2x, ??
??
n ??xF2( x?1), 2(n?x), ?? ??
x ?1 ?
10
JACMEN Estimación de proporciones
1935. Este mismo autor junto con H.A. Still publica en 1983 otro artículo en el que
utiliza la distribución F para hacer una revisión de la construcción dada por Clopper
y Pearson.La razón? Tal vez era más fácil lidiar con la F que con la Beta
En 1986, usando una relación existente entre las distribuciones Beta y F transformó
la fórmula de Clopper y Pearson en otra de más fácil cálculo puesto que solo
depende de F, la cual está dada por:
,
1
F
?
?
??1??
?
n??x?1
x
2
x ?1 ??
2
1?? F ?
n ??x 2( x?1), 2(n?x), ??2 ??
?
Esta fórmula ha tenido amplia difusión y ha sido usada bajo una presentación
equivalente un poco más compacta, como se muestra a continuación:
Han sido numerosos los investigadores que han trabajado sobre el tema, tantos
que los portugueses Pires y Amado han realizado un trabajo de comparación
mediante simulación de nada menos que 20 propuestas para determinar su
desempeño.
En estas notas mencionaremos solamente algunos autores, los que son más
reconocidos, sin profundizar en sus propuestas. Solamente nos interesa darlos a
???z n??2 p(1??p) ??? z
z??
x ??x ?? z2
? ?? ?1??
Lj (x) ???B ?x ?? , n ??x ??
, ? ? en otrocaso
?? 1 si x ?? n
1 ? ???
U j(x) ??? ?1?? 1 , n ??x ?? , ? ? en otro caso
?? ??
11
JACMEN Estimación de proporciones
conocer y mencionar sus fórmulas para que el lector interesado profundice en la
teoría buscando el material correspondiente.
Cabe mencionar de manera especial a Goodman, Fitzpatrick , Scott, Sison y Glaz.
Pero también son ampliamente reconocidos:
1. Wilson, quien propuso la fórmula siguiente:
p?
2
z??2
2n
2
1 1 2
2 4n 2
1?
2
n
2. Agresti y Coull (AC) quienes proponen agregar cuatro observaciones (dos
éxitos y dos fracasos) y tomar
1
2
??
2
,
n ??n ??z?
y
2
p =
x
n
con lo cual el IC quedará de la forma:
p ?? z??
2
p(1 – p)
n
3. Una propuesta muy interesante, hecha por Jeffrey, puede ser vista como una
estimación de carácter bayesiano con distribución a priori
informativa. Según esta propuesta el IC tiene laforma
??1 1 ??
B? , ?? que es no
? 2 2??
?Lj(x)
, U j(x)
??
donde
?
?
?? 0 si x ?? 0
1 1 ? ???
2 2 2 ?
? ? ??
??
B x ??2 2 2 ?
? ? ??
4. Es conocido también el método no paramétrico que surge a través de la
propuesta bootstrap de Efron (1979) pero que requiere el uso de computador y
la programación de un algoritmo que tome muchas submuestras de la muestra
? ?
?
? ?1 ?1
?
?
????p
?
??1??p?? ?
? ?
?
? ?
? ? 1 ?1
?
????p
?
? ??1??Exp?log?
???? np(1??p) 2 g
z? 2 ??
? ??1??p?? ?
? ?
?????p ?? ? ? 1 ?1 ? ??
??
? ?
??? ? ??
?????p ?? ? ? 1 ?1
?
??
1??Exp?log? ???? np(1??p) 2 g ????
??1??p??
??
?
z ?
????
1?????
? ? ?1?? ??
6 ? ?1??????n??2T ??1 n?1????? ?1? ?
g (T) ?? n ??? ? ??
? ??? 2?? ? ??
?
??
??
z ??
1 ??
12
JACMEN Estimación de proporciones
dada, construya la distribución empírica de las proporciones obtenidas con esas
muestras y finalmente calcule los percentiles P?
y
2
P ??
1????
2
que corresponden a
los límites del intervalo de confianza.
5. Haremos una breve referencia a un método de reciente aparición propuesto por
Zhou, Li y Yang (2008), denominado método ZL, según el cual el CI puede
construirse de acuerdo con la siguiente expresión:
? ?
Exp?log? ???? np(1??p) 2 g z ? ??????
2
,
2
?? ??1??p?? 1????? ?
? ?
??? Exp?log? ???? np(1??p) 2 g z? ??
?
2
??
??
?
?
1
?? ? 1 ??3 ?
Siendo
?1
??
con ???? 1 2p
p(1? p)
.
6
? ? ?
?
?
Para un nivel de confianza del 95% se tiene
??1.96
2
y z??????????1.96
2
Si
x ??0
o
x ??n
se toma
x ??0.5 en vez de
x y
n?1 en vez de
n.
Este método se encuentra implementado en un programa Matlab que se presenta
al final del documento (ver Apéndice, Programa No 1 ).
Los autores del método ZL hacen las siguientes recomendaciones:
a. Proscribir el método de Wald.
b. Usar el método de Wilson cuando no se conozca el posible valor de ??.
c. Si se tiene alguna idea del posible valor de ???y éste es cercano a 0.5 usar
el método AC de Agresti Coull, pero si el valor de ??es cercano a los
extremos 0 o 1 usar el método ZL.
6. Finalmente: de muy reciente aparición (diciembre de 2014) en el Journal of
Statistical Theory and Applications (Vol 13, No 4) un artículo de D. Habtzghi,
C.K. Midha y A. Das, propone un método radicalmente diferente para construir
los intervalos de confianza. Este método calcula los valores esperados de los
intervalos mediante la búsqueda de sus límites que son modelados a través de
13
JACMEN Estimación de proporciones
la variación de los niveles 1??? y la aplicación de dos modelos logísticos
especiales.
En este artículo los autores comparan los métodos de Wald, Clopper y Pearson,
Wilson, Agresti-Coull y Jeffrey con el que ellos proponen, denominado Mnew.
Los resultados muestran que el método de Wald fue el de peor cobertura, el
Mnew fue el mejor y los otros cuatro fluctúan entre los dos anteriores. El método
ZL no fue incluído en las comparaciones.
La tabla siguiente proporciona los IC del 95% de confianza para muestras de
tamaños comprendidos entre 5 y 16, según el número
x
de éxitos presentes
se encuentra en el
en la muestra. Una tabla más completa (hasta n ??40)
artículo original.
A manera de ejemplo presentaremos el IC calculado según algunos de los
métodos mencionados a lo largo de este documento.
14
JACMEN Estimación de proporciones
Como puede apreciarse en esta tabla el IC más desfasado es
el
correspondiente al método tradicional de Wald
Existe también un paquete implementado en R que permite, entre otras varias
cosas, estimar proporciones mediante 8 métodos, entre ellos, cuatro de los que
hemos mencionado en este documento. Es el paquete BINOM.
Los métodos y la sintaxis para el uso de BINOM son los siguientes:
El nombre que se encuentra entre comillas se utiliza para invocar cada
procedimiento como se muestra en el ejemplo siguiente:
15
JACMEN Estimación de proporciones
La opción “all” se encuentra por defecto.
CASO DE PROPORCIONES MULTINOMIALES
Terminaremos estas notas con una muy breve referencia al caso de
proporciones multinomiales, es decir, a aquel tipo de proporciones que hace
referencia a poblaciones cuyos elementos están clasificados en k categorías
disjuntas.
?ni
16
JACMEN Estimación de proporciones
Este caso presenta aún mayores dificultades teóricas y hay muchas menos
referencias bibliográficas. Su estudio merece un capítulo aparte por lo que en estas
notas solamente se hará un resumen muy sucinto de algunos trabajos y una rápida
referencia a uno de los métodos de estimación más versátiles que fue propuesto
por Quesenberry y Hurst (1964), el cual es aplicable siempre que se tengan
muestras de gran tamaño.
Supóngase que se tiene una población de N elementos partida en k
categorías
A1,A2,
Ak
con N1,N2,
,Nk elementos respectivamente. Se extrae una
muestra de n elementos y, en general, se desea saber cuál es la probabilidad de
que haya
xi
elementos de la categoría
Ai, para i ??1,2,
,k . Obviamente
se ha de cumplir
k
?? N
i
??N
y
i?1
? n.
k
i?1
de que
Igual que en el caso binomial, puede suceder que la probabilidad ?????
i
Ni
N
el elemento seleccionado pertenezca a
la categoría
Ai
no cambie en las
sucesivas extracciones, lo que ocurre si dichas extracciones son independientes.
Esto sucede únicamente cuando se hace muestreo CON reemplazamiento ya que
obviamente las categorías no son infinitas. En tal caso se tiene un modelo
multinomial de k categorías.
Por el contrario, si la probabilidad de que el elemento extraído pertenezca a
Ai
cambia con cada extracción, lo que ocurre, como es usual, si se hace muestreo
SIN reemplazamiento, se tiene un modelo hipergeométrico k-variado.
Si
Xi es la variable aleatoria que cuenta el número de elementos de la categoría
principales
Ai que aparecen en la muestra, el cuadro siguiente resume las
propiedades de los modelos multinomial e hipergeométrico k-variado:
Página siguiente |