Inferencia para datos cuantitativos: Medias

Esta entrada de blog es un resumen del curso en Khan Academy.

Confidence Interval

La fórmula básica para el cálculo del intérvalo de confianza es:

\overline{x} + t · \frac{S}{\sqrt{n}}

Donde

  • \overline{x} la media de la muestra
  • S es la desviación típica,
  • n el número de elementos de la muestra,
  • A diferencia que en los datos categóricos, para en encontrar el intérvalo de confianza en datos cuantitativos usamos el valor «t» en vez del valor «Z».

Condiciones para inferir en medias

Las condiciones que necesitamos para la inferencia sobre una media son

  • Aleatorio: Se debe utilizar una muestra aleatoria o un experimento aleatorio para obtener los datos.
  • Normal: La distribución muestral de \overline{x} (la media de la muestra) tiene que ser aproximadamente normal. Esto es cierto si nuestra población madre es normal o si nuestra muestra es razonablemente grande (n \geq 30) .
  • Independiente: Las observaciones individuales deben ser independientes. Si el muestreo es sin reemplazo, el tamaño de nuestra muestra no debe ser superior al 10%, por ciento de la población.

Condiciones para encontrar el valor T

El valor t se basa en dos aspectos:

  • Degrees of freedom (df) o grados de libertard: Que es igual a n-1.
  • Probabilidad del intervalo de confianza: (recuerda que si es por ejemplo 95%, será 0.975 debido a que el valor t lo obtenemos solo sobre un lado del gráfico.

Intervalo de confianza para una media con datos emparejados (paired t-test)

  • Realizar la diferencia entre el primer valor y el segundo por cada elemento de la muestra.
  • Chequear que se cumplen las condiciones para inferir
    • Aleatorio
    • Normal o n \geq 30
    • Independiente (muestra no debe ser superior al 10%)
  • Calcular la media \overline{x}_{diff} y desviación estándar S_{diff} de la diferencia de los valores.
  • Aplicar la fórmula del intervalo de confianza \overline{x} + t · \frac{S}{\sqrt{n}}

Ejemplo de cálculo de la estadística t para una prueba sobre una media

Rory sospecha que los profesores de su distrito escolar tienen menos de cinco años <5de experiencia por término medio. Decide poner a prueba su hipótesis nula de que la media de años de experiencia es de cinco años y su hipótesis alternativa de que la verdadera media de años de experiencia es inferior a cinco años, utilizando una muestra de 25 profesores.

  • H_o: \mu = 5
  • H_a:\mu < 5

La media de la muestra es de cuatro años y la desviación típica de la muestra es de dos años.

  • \overline{x} = 4
  • S_x=2
  • n=25

Rory quiere utilizar estos datos de la muestra para realizar una prueba t sobre la media. Suponga que se cumplen todas las condiciones para la inferencia. Calcule el estadístico de la prueba de Rory.

La fórmula para calcular el valor

    \[t = \frac{\overline{x}-\mu_o}{\frac{S_x}{\sqrt{n}}}\]

Nota: Usaremos el valor Z si conocemos la desviación estándar de toda la población, Z = \frac{\overline{x}-\mu_o}{\sigma_{\overline{x}}}, donde \sigma_{\overline{x} = \frac{\sigma}{\sqrt{n}}

Procedemos a realizar los cálculos y obtenemos que

    \[t = \frac{4-5}{\frac{2}{\sqrt{25}}} = -2.5\]

Usar excel para obtener el valor p-value

Sobre el ejemplo anterior, vamos a obtener el valor p que nos servirá para determinar si aceptamos o rechazamos la hipótesis nula.

  • Valor t, es el valor obtenido en la formula t.
  • df, grados de libertad que seran n-1

Valor obtenido de 0.0098,

Comparación del valor P del estadístico t con el nivel de significación

Llegados a este punto, vamos a determinar un valor de significancia de \alpha=0.05 (un 95% de certeza), dado que

  • H_o: \mu = 5
  • H_a:\mu < 5

Formulamos la hipótesis, si el p-value es inferior a 0.05, rechazaremos la hipotesis nula y por tanto indicaremos que hay fuertes evidencias que el valor medo es inferior a 5. Si el p-value es superior a 0.05, fallaremos en rechar la hipótesis nula y por tanto indicaremos que no hay evidencias fuertes que la media sea inferior a 5.

El valor obtenido en p ha sido 0.0098,

Por tanto rechazamos la hipótesis nula, ya que hay evidencias fuertes que la media es inferior a 5.

Inferencia para la diferencia de medias (Confidence interval)

Condiciones para poder realizar la inferencia en diferencia de medias

Chequear que se cumplen las condiciones para inferir

  • Aleatorio
  • Normal o n_1 \geq 30 y n_2 \geq 30
  • Independiente (muestra en ambas poblaciones no debe ser superior al 10%)

Fórmula para calcular intervalo de confianza para la la diferencia entre las medias

(\overline{x_1}-\overline{x_2} ) + t · \sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}

Recuerda que \sigma_{\overline{x_1}-\overline{x_2} } = \sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}

Two-sample t test for difference of means (Prueba t de dos muestras para la diferencia de medias)

La fórmula para obtener el valor t de la diferencia de dos muestras,

t = \frac{\overline{x_A}-\overline{x_B}}{\sqrt{\frac{S_A^2}{n_A}+\frac{S_B^2}{n_B}}}

Si no disponemos de un software para realizar el cálculo para los grados de libertad, usaremos el (valor n más pequeño – 1) o , min((n_A-1),(n_B-1))

Dejar un comentario

Tu dirección de correo electrónico no será publicada.