Inferencia para «Categorical data» (resumen)

Este es un resumen de la unidad «Inference for categorical data: Proportions» de Khan Academy.

Confidence Interval

Aquí un simulador de Intervalos de Confianza

Condiciones para un Intervalo de Confianza válido (MUY IMPORTANTE):

Random Sample: Los datos deben proceder de una muestra aleatoria o de un ensayo aleatorio.
Normal condition: La distribución del muestreo ha de ser aproximadamente normal. $n\hat{P}\geq 10$ y $n(1-\hat{P})\geq 10$ (ambas probabilidades).
Independence condition: Las observaciones individuales deben ser independientes. Si el muestreo es sin reemplazo, el tamaño de nuestra muestra ha de ser $n<10\%$ .

Para utilizar la fórmula de la desviación estándar de

$σ_{\hat{p}} = \sqrt{\frac{P (1 - P)}{n}}$

necesitamos que las observaciones individuales sean independientes.

Si no disponemos de la $P$ global, podemos usar el de la muestra, pero entonces lo llamaremos Error Estandar (Standar Error).

$SE_\hat{P}=\sqrt{\frac{\hat{P}(1-\hat{P})}{n}}$

Valor crítico Z dado el valor de un intérvalo de confianza

Para cálcular el intervalo de confianza será

$\hat{P}\pm \space (Z \cdot {SE_\hat{P}})$

Donde Z lo obtenemos de la inversa (tabla valor Z) sobre el intérvalo de confianza que queremos obtener.

Por ejemplo, un CI (Confidence Interval) de 95%, seria el valor Z de 97.5%. Por qué? Mira el video de Khan Academy.

Yo uso el truquillo de $\frac{(100-CI)}{2}+CI$

$\frac{(100-95)}{2}+95 = 97.5$

También uso la función de la calculadora Casio, «Dis. n. acum. inv» que me devuelve el valor. O para excel puedes usar «=INV.NORM(0,95;0;1)» (donde 0,95 es el CI).

Determinar el tamaño mínimo de una muestra en base a un CI y margen de error

El valor ideal es cuando $\hat{P}=0.5$ , por tanto si sabemos que queremos un CI de 99% con un margen de error inferior al 2% (por poner une ejemplo). Primero obtendremos la inversa de Z para 99,5% que es 2.576 aprox. A partir de aquí sabemos que:

$Z \cdot \sqrt{\frac{\hat{P}(1-\hat{P})}{n}} \leq 2\%$

$2.576 \cdot \frac{0.5}{\sqrt{n}} \leq 0.02$

aislamos la n

$\frac{(0.5) \cdot (2.576)} {0.02}\leq \sqrt{n}$

$64.4^2 \leq n$

$4147 \leq n$

Hipótesis Test

Definir $H_o$ y $H_a$ .
Fijar un nivel de significancia $\alpha = x.xx$ (puede ser 0.05, 0.10, etc…)
Tomar un sample. Recuerda que,
- Random Sample: Los datos deben proceder de una muestra aleatoria o de un ensayo aleatorio.
- Normal condition: La distribución del muestreo ha de ser aproximadamente normal. $n\hat{P}\geq 10$ y $n(1-\hat{P})\geq 10$ (ambas probabilidades).
- Independence condition: Las observaciones individuales deben ser independientes. Si el muestreo es sin reemplazo, el tamaño de nuestra muestra ha de ser $n<10\%$
Calcular p-value, a partir de cálcular el valor Z.
- $Z=\frac{\hat{P}-P_o}{\sqrt{\frac{P_o (1-P_o)}{n}}}$ = $\frac{\hat{P}-P_o}{\sigma_\hat{P}}$
- Una vez obtenido el valor Z, obtener el valor % para disponer de p-value.
Si p-value < $\alpha$ rechazar $H_o$ a favor de $H_a$
Si p-value $\geq \alpha$ no rechazar $H_o$ , pero eso no significa que la aceptemos.

Errores potenciales cuando se realizan hypotesis test

Un error de tipo I es cuando rechazamos una hipótesis nula verdadera. Los valores más bajos de $\alpha$ hacen que sea más difícil rechazar la hipótesis nula, por lo que la elección de valores más bajos para $\alpha$ puede reducir la probabilidad de un error de tipo I. La consecuencia es que si la hipótesis nula es falsa, puede ser más difícil de rechazar utilizando un valor bajo de $\alpha$ . Así que el uso de valores más bajos de $\alpha$ puede aumentar la probabilidad de un error de tipo II.
Un error de tipo II es cuando no se rechaza una hipótesis nula falsa. Los valores más altos de $\alpha$ facilitan el rechazo de la hipótesis nula, por lo que la elección de valores más altos para $\alpha$ puede reducir la probabilidad de un error de tipo II. La consecuencia aquí es que si la hipótesis nula es verdadera, aumentar $\alpha$ hace más probable que cometamos un error de Tipo I (rechazar una hipótesis nula verdadera).

p-value $\space < \alpha \leftarrow$ reject Ho
p-value $\space \geq \alpha \leftarrow$ fail to reject Ho