Este es un resumen de la unidad «Inference for categorical data: Proportions» de Khan Academy.
Confidence Interval
Aquí un simulador de Intervalos de Confianza
Condiciones para un Intervalo de Confianza válido (MUY IMPORTANTE):
- Random Sample: Los datos deben proceder de una muestra aleatoria o de un ensayo aleatorio.
- Normal condition: La distribución del muestreo ha de ser aproximadamente normal.
y
(ambas probabilidades). - Independence condition: Las observaciones individuales deben ser independientes. Si el muestreo es sin reemplazo, el tamaño de nuestra muestra ha de ser
.
Para utilizar la fórmula de la desviación estándar de
necesitamos que las observaciones individuales sean independientes.
Si no disponemos de la
global, podemos usar el de la muestra, pero entonces lo llamaremos Error Estandar (Standar Error).
![]()
Valor crítico Z dado el valor de un intérvalo de confianza
Para cálcular el intervalo de confianza será
![]()
Donde Z lo obtenemos de la inversa (tabla valor Z) sobre el intérvalo de confianza que queremos obtener.
Por ejemplo, un CI (Confidence Interval) de 95%, seria el valor Z de 97.5%. Por qué? Mira el video de Khan Academy.
Yo uso el truquillo de ![]()
![]()
También uso la función de la calculadora Casio, «Dis. n. acum. inv» que me devuelve el valor. O para excel puedes usar «=INV.NORM(0,95;0;1)» (donde 0,95 es el CI).
Determinar el tamaño mínimo de una muestra en base a un CI y margen de error
El valor ideal es cuando
, por tanto si sabemos que queremos un CI de 99% con un margen de error inferior al 2% (por poner une ejemplo). Primero obtendremos la inversa de Z para 99,5% que es 2.576 aprox. A partir de aquí sabemos que:
![]()
![]()
aislamos la n
![]()
![]()
![]()
Hipótesis Test
- Definir
y
. - Fijar un nivel de significancia
(puede ser 0.05, 0.10, etc…) - Tomar un sample. Recuerda que,
- Random Sample: Los datos deben proceder de una muestra aleatoria o de un ensayo aleatorio.
- Normal condition: La distribución del muestreo ha de ser aproximadamente normal.
y
(ambas probabilidades).
- Independence condition: Las observaciones individuales deben ser independientes. Si el muestreo es sin reemplazo, el tamaño de nuestra muestra ha de ser
- Calcular p-value, a partir de cálcular el valor Z.
= 
- Una vez obtenido el valor Z, obtener el valor % para disponer de p-value.
- Si p-value <
rechazar
a favor de 
- Si p-value
no rechazar
, pero eso no significa que la aceptemos.
Errores potenciales cuando se realizan hypotesis test
Un error de tipo I es cuando rechazamos una hipótesis nula verdadera. Los valores más bajos de
hacen que sea más difícil rechazar la hipótesis nula, por lo que la elección de valores más bajos para
puede reducir la probabilidad de un error de tipo I. La consecuencia es que si la hipótesis nula es falsa, puede ser más difícil de rechazar utilizando un valor bajo de
. Así que el uso de valores más bajos de
puede aumentar la probabilidad de un error de tipo II.
Un error de tipo II es cuando no se rechaza una hipótesis nula falsa. Los valores más altos de
facilitan el rechazo de la hipótesis nula, por lo que la elección de valores más altos para
puede reducir la probabilidad de un error de tipo II. La consecuencia aquí es que si la hipótesis nula es verdadera, aumentar
hace más probable que cometamos un error de Tipo I (rechazar una hipótesis nula verdadera).
p-value
reject Ho
p-value
fail to reject Ho
| reject | Type I error | correct conclusion |
| fail to reject | correct conclusión | Type II error |
Si
aumenta:
- Power aumenta
- Probabilidad de Type I error aumenta
Intervalos de confianza para la diferencia de dos proporciones
Recuerda que:
- Random
- Distribución normal
- Independencia de los datos (<10% sin reemplazo)
Y el truquillo de
(CI = Intervalo de confianza deseado)
Entonces, el CI para la diferencia entre dos proporciones es,
Confidence Interval for ![]()
Donde,
![]()
Prueba de hipótesis para la diferencia de proporciones
Los pasos son los mismos que en hipotesis test normal, pero teniendo en cuenta que,
![]()
Donde,
![Rendered by QuickLaTeX.com \[\sigma_{\hat{P}_A - \hat{P}_B} = \sqrt{{\frac{\hat{P_C}(1-\hat{P_C})}{n_{A}}}+{\frac{\hat{P_C}(1-\hat{P_C})}{n_{B}}}}\]](https://www.mox.es/wp-content/ql-cache/quicklatex.com-9bd60fa0460acbc463b39f28701bef7c_l3.png)
es el promedio de las sumas
y
(sumar subtotales, dividir por suma de totales).
Deja una respuesta