Inferencia para «Categorical data» (resumen)

Este es un resumen de la unidad «Inference for categorical data: Proportions» de Khan Academy.

Confidence Interval

Aquí un simulador de Intervalos de Confianza

Condiciones para un Intervalo de Confianza válido (MUY IMPORTANTE):

  • Random Sample: Los datos deben proceder de una muestra aleatoria o de un ensayo aleatorio.
  • Normal condition: La distribución del muestreo ha de ser aproximadamente normal. n\hat{P}\geq 10 y n(1-\hat{P})\geq 10 (ambas probabilidades).
  • Independence condition: Las observaciones individuales deben ser independientes. Si el muestreo es sin reemplazo, el tamaño de nuestra muestra ha de ser n<10\% .

Para utilizar la fórmula de la desviación estándar de

σp^=P(1P)n

necesitamos que las observaciones individuales sean independientes.

Si no disponemos de la P global, podemos usar el de la muestra, pero entonces lo llamaremos Error Estandar (Standar Error).

SE_\hat{P}=\sqrt{\frac{\hat{P}(1-\hat{P})}{n}}

Valor crítico Z dado el valor de un intérvalo de confianza

Para cálcular el intervalo de confianza será

\hat{P}\pm \space (Z \cdot {SE_\hat{P}})

Donde Z lo obtenemos de la inversa (tabla valor Z) sobre el intérvalo de confianza que queremos obtener.

Por ejemplo, un CI (Confidence Interval) de 95%, seria el valor Z de 97.5%. Por qué? Mira el video de Khan Academy.

Yo uso el truquillo de \frac{(100-CI)}{2}+CI

\frac{(100-95)}{2}+95 = 97.5

También uso la función de la calculadora Casio, «Dis. n. acum. inv» que me devuelve el valor. O para excel puedes usar «=INV.NORM(0,95;0;1)» (donde 0,95 es el CI).

Determinar el tamaño mínimo de una muestra en base a un CI y margen de error

El valor ideal es cuando \hat{P}=0.5 , por tanto si sabemos que queremos un CI de 99% con un margen de error inferior al 2% (por poner une ejemplo). Primero obtendremos la inversa de Z para 99,5% que es 2.576 aprox. A partir de aquí sabemos que:

Z \cdot \sqrt{\frac{\hat{P}(1-\hat{P})}{n}} \leq 2\%

2.576 \cdot \frac{0.5}{\sqrt{n}} \leq 0.02

aislamos la n

\frac{(0.5) \cdot (2.576)} {0.02}\leq  \sqrt{n}

64.4^2 \leq n

4147 \leq n

Hipótesis Test

  • Definir H_o y H_a.
  • Fijar un nivel de significancia \alpha = x.xx (puede ser 0.05, 0.10, etc…)
  • Tomar un sample. Recuerda que,
    • Random Sample: Los datos deben proceder de una muestra aleatoria o de un ensayo aleatorio.
    • Normal condition: La distribución del muestreo ha de ser aproximadamente normal. n\hat{P}\geq 10 y n(1-\hat{P})\geq 10 (ambas probabilidades).
    • Independence condition: Las observaciones individuales deben ser independientes. Si el muestreo es sin reemplazo, el tamaño de nuestra muestra ha de ser n<10\%
  • Calcular p-value, a partir de cálcular el valor Z.
    • Z=\frac{\hat{P}-P_o}{\sqrt{\frac{P_o (1-P_o)}{n}}} = \frac{\hat{P}-P_o}{\sigma_\hat{P}}
    • Una vez obtenido el valor Z, obtener el valor % para disponer de p-value.
  • Si p-value < \alpha rechazar H_o a favor de H_a
  • Si p-value \geq \alpha no rechazar H_o, pero eso no significa que la aceptemos.

Errores potenciales cuando se realizan hypotesis test

Un error de tipo I es cuando rechazamos una hipótesis nula verdadera. Los valores más bajos de \alpha hacen que sea más difícil rechazar la hipótesis nula, por lo que la elección de valores más bajos para \alpha puede reducir la probabilidad de un error de tipo I. La consecuencia es que si la hipótesis nula es falsa, puede ser más difícil de rechazar utilizando un valor bajo de \alpha. Así que el uso de valores más bajos de \alpha puede aumentar la probabilidad de un error de tipo II.
Un error de tipo II es cuando no se rechaza una hipótesis nula falsa. Los valores más altos de \alpha facilitan el rechazo de la hipótesis nula, por lo que la elección de valores más altos para \alpha puede reducir la probabilidad de un error de tipo II. La consecuencia aquí es que si la hipótesis nula es verdadera, aumentar \alpha hace más probable que cometamos un error de Tipo I (rechazar una hipótesis nula verdadera).

p-value\space < \alpha \leftarrow reject Ho
p-value\space \geq \alpha \leftarrow fail to reject Ho

H_o TrueH_o False
reject H_oType I errorcorrect conclusion
fail to reject H_ocorrect conclusiónType II error
Info extraida del curso de Khan Academy

Si \alpha aumenta:

  • Power aumenta
  • Probabilidad de Type I error aumenta

Intervalos de confianza para la diferencia de dos proporciones

Recuerda que:

  • Random
  • Distribución normal
  • Independencia de los datos (<10% sin reemplazo)

Y el truquillo de \frac{(100-CI)}{2}+CI (CI = Intervalo de confianza deseado)

Entonces, el CI para la diferencia entre dos proporciones es,

Confidence Interval for P_1 - P_2 =({\hat{P}_1 - \hat{P}_2}) \space\pm \space Z \cdot \sigma_{\hat{P}_1 - \hat{P}_2}

Donde,

\sigma_{\hat{P}_1 - \hat{P}_2} = \sqrt{{\frac{\hat{P_1}(1-\hat{P_1})}{n}}+{\frac{\hat{P_2}(1-\hat{P_2})}{n}}}

Prueba de hipótesis para la diferencia de proporciones

Los pasos son los mismos que en hipotesis test normal, pero teniendo en cuenta que,

Z = \frac{\hat{P}_A - \hat{P}_B}{\sigma_{\hat{P}_A - \hat{P}_B}}

Donde,

    \[\sigma_{\hat{P}_A - \hat{P}_B} = \sqrt{{\frac{\hat{P_C}(1-\hat{P_C})}{n_{A}}}+{\frac{\hat{P_C}(1-\hat{P_C})}{n_{B}}}}\]

\hat{P}_C es el promedio de las sumas \hat{P}_A y \hat{P}_B (sumar subtotales, dividir por suma de totales).

Dejar un comentario

Tu dirección de correo electrónico no será publicada.