AlwaysR, Módulo III: Estadística en R

Clase 2: Pruebas de hipótesis. ANOVA. Comparaciones múltiples.

Dr. Giancarlo M. Correa

1 / 60

Pruebas de hipótesis

2 / 60

Tipos de estudios

Experimental

Laboratorio ó en campo
Podemos elegir a los individuos
Requiere manipulación
Normalmente usado para estudiar diferentes ‘tratamientos’
Puede determinar causalidad

3 / 60

Tipos de estudios

Observacional

En campo
Diseño de muestreo
Los individuos no son elegidos a voluntad
Utilizado normalmente para estudiar diferentes ‘tratamientos’ y realizar inferencias acerca de la población
Difícil para determinar causalidad

4 / 60

Prueba de hipótesis

De una muestra
De dos muestras

5 / 60

Prueba de hipótesis

De una muestra
De dos muestras

5 / 60

Prueba de hipótesis

Hipótesis nula ( $H_{0}$ ): Un valor especificado o rango de valores para el parámetro de interés. Normalmente representa los valores ‘no interesantes’.

Ejemplo: $H_{0} : μ = 0$

6 / 60

Prueba de hipótesis

Hipótesis nula ( $H_{0}$ ): Un valor especificado o rango de valores para el parámetro de interés. Normalmente representa los valores ‘no interesantes’.

Ejemplo: $H_{0} : μ = 0$

Hipótesis alternativa ( $H_{A}$ ): Un valor especificado diferente o rango de valores para el parámetro de interés. Normalmente representan los valores ‘interesantes’.

Ejemplo: $H_{A} : μ \neq 0$

6 / 60

Prueba de hipótesis

Podemos obtener dos resultados:

Rechazar la hipótesis nula
Fallar en rechazar la hipótesis nula

7 / 60

Prueba de hipótesis

Podemos obtener dos resultados:

Rechazar la hipótesis nula
Fallar en rechazar la hipótesis nula

7 / 60

Componentes de una prueba de hipótesis

Nivel de significancia ( $α$ ): probabilidad de un error Tipo I (rechazar la hipótesis nula cuando de hecho es verdadera).

8 / 60

Componentes de una prueba de hipótesis

Nivel de significancia ( $α$ ): probabilidad de un error Tipo I (rechazar la hipótesis nula cuando de hecho es verdadera).
Estadístico de prueba: Valor calculado a partir de una función de los valores muestreados que es usado para decidir entre la hipótesis nula o alternativa.

8 / 60

Componentes de una prueba de hipótesis

Nivel de significancia ( $α$ ): probabilidad de un error Tipo I (rechazar la hipótesis nula cuando de hecho es verdadera).
Estadístico de prueba: Valor calculado a partir de una función de los valores muestreados que es usado para decidir entre la hipótesis nula o alternativa.
Distribución de referencia: Distribución que usamos para decidir si rechazamos la hipótesis nula.

8 / 60

Componentes de una prueba de hipótesis

Nivel de significancia ( $α$ ): probabilidad de un error Tipo I (rechazar la hipótesis nula cuando de hecho es verdadera).
Estadístico de prueba: Valor calculado a partir de una función de los valores muestreados que es usado para decidir entre la hipótesis nula o alternativa.
Distribución de referencia: Distribución que usamos para decidir si rechazamos la hipótesis nula.
Región de rechazo: Valores para los cuales la hipótesis nula será rechazada.

8 / 60

Componentes de una prueba de hipótesis

Nivel de significancia ( $α$ ): probabilidad de un error Tipo I (rechazar la hipótesis nula cuando de hecho es verdadera).
Estadístico de prueba: Valor calculado a partir de una función de los valores muestreados que es usado para decidir entre la hipótesis nula o alternativa.
Distribución de referencia: Distribución que usamos para decidir si rechazamos la hipótesis nula.
Región de rechazo: Valores para los cuales la hipótesis nula será rechazada.
Valor crítico: Valor con el cual el estadístico de prueba será comparado para decidir si rechazamos la hipótesis nula.

8 / 60

Componentes de una prueba de hipótesis

Ejemplo:

9 / 60

Componentes de una prueba de hipótesis

Ejemplo:

$c$ es el valor crítico
La zona roja es la zona de rechazo
La distribución normal es la distribución de referencia

9 / 60

Pruebas de hipótesis de una muestra10 / 60

Prueba Z (Z-test)

Cuando conocemos la varianza poblacional.

Tenemos: $H_{0} : μ \leq μ_{0}$ ó $H_{0} : μ \geq μ_{0}$ ó $H_{0} : μ = μ_{0}$

11 / 60

Prueba Z (Z-test)

Cuando conocemos la varianza poblacional.

Tenemos: $H_{0} : μ \leq μ_{0}$ ó $H_{0} : μ \geq μ_{0}$ ó $H_{0} : μ = μ_{0}$

Estadístico de prueba:

$Z = \frac{\bar{X} - μ_{0}}{\sqrt{σ^{2} / n}}$

Se asume que la varianza de la población es conocida ( $σ^{2}$ ). $n$ es el individuos en la muestra. $\bar{X}$ es la media de la muestra.

11 / 60

Prueba Z (Z-test)

Cuando conocemos la varianza poblacional.

Tenemos: $H_{0} : μ \leq μ_{0}$ ó $H_{0} : μ \geq μ_{0}$ ó $H_{0} : μ = μ_{0}$

Estadístico de prueba:

$Z = \frac{\bar{X} - μ_{0}}{\sqrt{σ^{2} / n}}$

Se asume que la varianza de la población es conocida ( $σ^{2}$ ). $n$ es el individuos en la muestra. $\bar{X}$ es la media de la muestra.

Distribución de referencia: $Z \sim N (0, 1)$

11 / 60

Prueba Z (Z-test)

Cuando conocemos la varianza poblacional.

Tenemos: $H_{0} : μ \leq μ_{0}$ ó $H_{0} : μ \geq μ_{0}$ ó $H_{0} : μ = μ_{0}$

Estadístico de prueba:

$Z = \frac{\bar{X} - μ_{0}}{\sqrt{σ^{2} / n}}$

Se asume que la varianza de la población es conocida ( $σ^{2}$ ). $n$ es el individuos en la muestra. $\bar{X}$ es la media de la muestra.

Distribución de referencia: $Z \sim N (0, 1)$

Decisión:

$H_{A} : μ > μ_{0}$ : Rechazamos $H_{0}$ cuando $Z > z_{1 - α}$
$H_{A} : μ < μ_{0}$ : Rechazamos $H_{0}$ cuando $Z < z_{1 - α}$
$H_{A} : μ \neq μ_{0}$ : Rechazamos $H_{0}$ cuando $∣ Z ∣> z_{1 - α / 2}$

11 / 60

P-valor

p-value: Probabilidad de observar una media muestral que es tanto o más extrema que la observada, bajo la hipótesis nula es verdadera.

12 / 60

P-valor

p-value: Probabilidad de observar una media muestral que es tanto o más extrema que la observada, bajo la hipótesis nula es verdadera.

Valores muy pequeños de p-value nos llevarán a rechazar la hipótesis nula.

12 / 60

Prueba Z (Z-test)

Ejemplo: Dado $H_{0} : μ = 12$ y $H_{A} : μ \neq 12$ . Obtenemos un $Z = 2.1$ y un $p - v a l u e = 0.0357$ . La correcta interpretación es: Hay 3.57% de probabilidad de observar el $Z$ obtenido (o uno mayor) cuando la hipótesis nula es verdadera ( $μ = 12$ ).

13 / 60

Prueba Z (Z-test)

13 / 60

Prueba Z (Z-test)

Veamos la distribución de la variable Sepal.Width de la base de datos iris:

14 / 60

Prueba Z (Z-test)

Para:

$H_{0} : μ = 0$
$H_{A} : μ \neq 0$
$σ = 0.4$

En R podemos usar (librería BSDA):

z.test(x = iris$Sepal.Width, alternative = 'two.sided', 
       mu = 0, sigma.x = 0.4)

## 
##     One-sample z-Test
## 
## data:  iris$Sepal.Width
## z = 93.611, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  2.993321 3.121345
## sample estimates:
## mean of x 
##  3.057333

15 / 60

Intervalos de confianza

El intervalo construido contendrá el valor verdadero de $μ$ (media de la población) el $(1 - α) 100 %$ de las veces que repetimos el experimento.

16 / 60

Intervalos de confianza

El intervalo construido contendrá el valor verdadero de $μ$ (media de la población) el $(1 - α) 100 %$ de las veces que repetimos el experimento.

16 / 60

Intervalos de confianza

El intervalo construido contendrá el valor verdadero de $μ$ (media de la población) el $(1 - α) 100 %$ de las veces que repetimos el experimento.

NO es correcto decir que hay $(1 - α) 100 %$ de probabilidad que la media de la población este en este intervalo (de un experimento en específico).

16 / 60

Prueba Z (Z-test)

Para:

$H_{0} : μ \geq 0$
$H_{A} : μ < 0$
$σ = 0.4$

En R podemos usar (librería BSDA):

z.test(x = iris$Sepal.Width, alternative = 'less', 
       mu = 0, sigma.x = 0.4)

## 
##     One-sample z-Test
## 
## data:  iris$Sepal.Width
## z = 93.611, p-value = 1
## alternative hypothesis: true mean is less than 0
## 95 percent confidence interval:
##        NA 3.111054
## sample estimates:
## mean of x 
##  3.057333

17 / 60

Prueba Z (Z-test)

Para:

$H_{0} : μ \leq 0$
$H_{A} : μ > 0$
$σ = 0.4$

En R podemos usar (librería BSDA):

z.test(x = iris$Sepal.Width, alternative = 'greater', 
       mu = 0, sigma.x = 0.4)

## 
##     One-sample z-Test
## 
## data:  iris$Sepal.Width
## z = 93.611, p-value < 2.2e-16
## alternative hypothesis: true mean is greater than 0
## 95 percent confidence interval:
##  3.003613       NA
## sample estimates:
## mean of x 
##  3.057333

18 / 60

Prueba t (t-test)

Cuando no conocemos la varianza poblacional pero si la muestral.

Tenemos: $H_{0} : μ \leq μ_{0}$ ó $H_{0} : μ \geq μ_{0}$ ó $H_{0} : μ = μ_{0}$

19 / 60

Prueba t (t-test)

Cuando no conocemos la varianza poblacional pero si la muestral.

Tenemos: $H_{0} : μ \leq μ_{0}$ ó $H_{0} : μ \geq μ_{0}$ ó $H_{0} : μ = μ_{0}$

Estadístico de prueba:

$t = \frac{\bar{X} - μ_{0}}{\sqrt{s^{2} / n}}$

$n$ es el individuos en la muestra. $\bar{X}$ es la media de la muestra. $s^{2}$ es la varianza muestral.

19 / 60

Prueba t (t-test)

Cuando no conocemos la varianza poblacional pero si la muestral.

Tenemos: $H_{0} : μ \leq μ_{0}$ ó $H_{0} : μ \geq μ_{0}$ ó $H_{0} : μ = μ_{0}$

Estadístico de prueba:

$t = \frac{\bar{X} - μ_{0}}{\sqrt{s^{2} / n}}$

$n$ es el individuos en la muestra. $\bar{X}$ es la media de la muestra. $s^{2}$ es la varianza muestral.

Distribución de referencia: $t \sim t_{n - 1}$

19 / 60

Prueba t (t-test)

Cuando no conocemos la varianza poblacional pero si la muestral.

Tenemos: $H_{0} : μ \leq μ_{0}$ ó $H_{0} : μ \geq μ_{0}$ ó $H_{0} : μ = μ_{0}$

Estadístico de prueba:

$t = \frac{\bar{X} - μ_{0}}{\sqrt{s^{2} / n}}$

$n$ es el individuos en la muestra. $\bar{X}$ es la media de la muestra. $s^{2}$ es la varianza muestral.

Distribución de referencia: $t \sim t_{n - 1}$

Decisión:

$H_{A} : μ > μ_{0}$ : Rechazamos $H_{0}$ cuando $t > t_{n - 1, 1 - α}$
$H_{A} : μ < μ_{0}$ : Rechazamos $H_{0}$ cuando $t < t_{n - 1, α}$
$H_{A} : μ \neq μ_{0}$ : Rechazamos $H_{0}$ cuando $∣ t ∣> t_{n - 1, 1 - α / 2}$

19 / 60

Prueba t (t-test)

Para:

$H_{0} : μ = 0$
$H_{A} : μ \neq 0$

En R podemos usar:

t.test(x = iris$Sepal.Width, alternative = 'two.sided', 
       mu = 0)

## 
##     One Sample t-test
## 
## data:  iris$Sepal.Width
## t = 85.908, df = 149, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  2.987010 3.127656
## sample estimates:
## mean of x 
##  3.057333

20 / 60

Prueba binomial (exacta)

Ejemplo:

Supongamos que realizo un muestreo de una población y capturé 30 individuos ( $n = 30$ ). El evento de interés es que un individuo sea macho ( $p = P (m a c h o)$ ). Tenemos que $H_{0} : p \leq 0.5$ y $H_{A} : p > 0.5$ . Entonces:

Si observo $X = 5$ machos, debo rechazar $H_{0}$ ?

21 / 60

Prueba binomial (exacta)

Ejemplo:

Si observo $X = 5$ machos, debo rechazar $H_{0}$ ?
Si observo $X = 15$ machos, debo rechazar $H_{0}$ ?

21 / 60

Prueba binomial (exacta)

Ejemplo:

Si observo $X = 5$ machos, debo rechazar $H_{0}$ ?
Si observo $X = 15$ machos, debo rechazar $H_{0}$ ?
Si observo $X = 25$ machos, debo rechazar $H_{0}$ ?

21 / 60

Prueba binomial (exacta)

22 / 60

Prueba binomial (exacta)

Tenemos: $H_{0} : p \leq p_{0}$ ó $H_{0} : p \geq p_{0}$ ó $H_{0} : p = p_{0}$

23 / 60

Prueba binomial (exacta)

Tenemos: $H_{0} : p \leq p_{0}$ ó $H_{0} : p \geq p_{0}$ ó $H_{0} : p = p_{0}$

Distribución de referencia: $X \sim B i n o m (n, p_{0})$

Donde $X = \sum_{i = 1}^{n} Y_{i}$ , e $Y_{i}$ es un evento con éxito/fracaso:

$P (Y_{i} = 1) = p P (Y_{i} = 0) = 1 - p$

23 / 60

Prueba binomial (exacta)

Tenemos: $H_{0} : p \leq p_{0}$ ó $H_{0} : p \geq p_{0}$ ó $H_{0} : p = p_{0}$

Distribución de referencia: $X \sim B i n o m (n, p_{0})$

Donde $X = \sum_{i = 1}^{n} Y_{i}$ , e $Y_{i}$ es un evento con éxito/fracaso:

$P (Y_{i} = 1) = p P (Y_{i} = 0) = 1 - p$

Decisión:

$H_{A} : p > p_{0}$ : Rechazamos $H_{0}$ cuando?
$H_{A} : p < p_{0}$ : Rechazamos $H_{0}$ cuando?
$H_{A} : p \neq p_{0}$ : Rechazamos $H_{0}$ cuando?

23 / 60

Prueba binomial (exacta)

24 / 60

Prueba binomial (exacta)

Tenemos:

$H_{0} : p = 0.5$
$H_{A} : p \neq 0.5$

Para la variable Species de la base de datos iris, donde la presencia de la especie setosa es mi evento de interés:

X = sum(iris$Species == 'setosa')
n = nrow(iris)

25 / 60

Prueba binomial (exacta)

$H_{0} : p = 0.5$
$H_{A} : p \neq 0.5$

En R podemos usar:

binom.test(x = X, n = n, p = 0.5, alternative = 'two.sided')

## 
##     Exact binomial test
## 
## data:  X and n
## number of successes = 50, number of trials = 150, p-value = 5.448e-05
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.2585564 0.4148430
## sample estimates:
## probability of success 
##              0.3333333

26 / 60

Prueba Kolmogorov-Smirnov

Utilizada para testear la distribución de una variable.

27 / 60

Prueba Kolmogorov-Smirnov

Utilizada para testear la distribución de una variable.

Estadístico de prueba:

$D = s u p_{x} ∣ \hat{F} (x) - F_{0} (x) ∣$

Donde $\hat{F} (x) = \frac{1}{n} \sum_{i = 1}^{n} 1 {X_{i} \leq x}$ , la cual es la proporción de observaciones menores a $x$ .

27 / 60

Prueba Kolmogorov-Smirnov

Utilizada para testear la distribución de una variable.

Estadístico de prueba:

$D = s u p_{x} ∣ \hat{F} (x) - F_{0} (x) ∣$

Donde $\hat{F} (x) = \frac{1}{n} \sum_{i = 1}^{n} 1 {X_{i} \leq x}$ , la cual es la proporción de observaciones menores a $x$ .

27 / 60

Prueba Kolmogorov-Smirnov

Simulamos una variable:

rVar = rnorm(n = 100, mean = 5, sd = 1)
hist(rVar)

28 / 60

Prueba Kolmogorov-Smirnov

En R podemos usar:

ks.test(x = rVar, y = 'pnorm', mean = 3, sd = 0.4, 
        alternative = 'two.sided')

## 
##     Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  rVar
## D = 0.89207, p-value < 2.2e-16
## alternative hypothesis: two-sided

29 / 60

Prueba Kolmogorov-Smirnov

En R podemos usar:

ks.test(x = rVar, y = 'pnorm', mean = 3, sd = 0.4, 
        alternative = 'two.sided')

## 
##     Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  rVar
## D = 0.89207, p-value < 2.2e-16
## alternative hypothesis: two-sided

En este caso:

$H_{0} : F (x) = N (3, {0.4}^{2})$
$H_{A} : F (x) \neq N (3, {0.4}^{2})$

29 / 60

Pruebas de hipótesis de dos muestras30 / 60

Tipos de pruebas de dos muestras

Muestras emparejadas: un individuo muestreado en la primera muestra está relacionado a otro único individuos en la segunda muestra.

31 / 60

Tipos de pruebas de dos muestras

Muestras emparejadas: un individuo muestreado en la primera muestra está relacionado a otro único individuos en la segunda muestra.
Muestras independientes: individuos de la primera muestra son independientes a los individuos de la segunda muestra.

31 / 60

Prueba t de muestras independientes

Tenemos: $H_{0} : δ \leq δ_{0}$ ó $H_{0} : δ \geq δ_{0}$ ó $H_{0} : δ = δ_{0}$

Donde: $δ = μ_{X} - μ_{Y}$

32 / 60

Prueba t de muestras independientes

Tenemos: $H_{0} : δ \leq δ_{0}$ ó $H_{0} : δ \geq δ_{0}$ ó $H_{0} : δ = δ_{0}$

Donde: $δ = μ_{X} - μ_{Y}$

Estadístico de prueba:

$t = \frac{\hat{δ} - δ_{0}}{\sqrt{s_{p}^{2} / m + s_{p}^{2} / n}}$

$m$ es el número de individuos en la muestra 1 y $n$ es el número de individuos en la muestra 2. $\bar{X}$ es la media de la muestra. $s_{p}^{2}$ es la varianza agrupada. $\hat{δ} = \bar{X} - \bar{Y}$ .

32 / 60

Prueba t de muestras independientes

Tenemos: $H_{0} : δ \leq δ_{0}$ ó $H_{0} : δ \geq δ_{0}$ ó $H_{0} : δ = δ_{0}$

Donde: $δ = μ_{X} - μ_{Y}$

Estadístico de prueba:

$t = \frac{\hat{δ} - δ_{0}}{\sqrt{s_{p}^{2} / m + s_{p}^{2} / n}}$

Distribución de referencia: $t \sim t_{m + n - 2}$

32 / 60

Prueba t de muestras independientes

Tenemos: $H_{0} : δ \leq δ_{0}$ ó $H_{0} : δ \geq δ_{0}$ ó $H_{0} : δ = δ_{0}$

Donde: $δ = μ_{X} - μ_{Y}$

Estadístico de prueba:

$t = \frac{\hat{δ} - δ_{0}}{\sqrt{s_{p}^{2} / m + s_{p}^{2} / n}}$

Distribución de referencia: $t \sim t_{m + n - 2}$

Decisión:

$H_{A} : δ > δ_{0}$ : Rechazamos $H_{0}$ cuando $t > t_{m + n - 2, 1 - α}$
$H_{A} : δ < δ_{0}$ : Rechazamos $H_{0}$ cuando $t < t_{m + n - 2, α}$
$H_{A} : δ \neq δ_{0}$ : Rechazamos $H_{0}$ cuando $∣ t ∣> t_{m + n - 2, 1 - α / 2}$

32 / 60

Prueba t de muestras independientes

Para la variable Petal.Length, podemos seleccionar los valores para la especie setosa y virginica:

setosaVal = iris$Petal.Length[iris$Species == 'setosa']
virginicaVal = iris$Petal.Length[iris$Species == 'virginica']

33 / 60

Prueba t de muestras independientes

Y en R podemos usar la función:

t.test(x = setosaVal, y = virginicaVal, alternative = 'two.sided', 
       mu = 0, paired = FALSE, var.equal = FALSE)

## 
##     Welch Two Sample t-test
## 
## data:  setosaVal and virginicaVal
## t = -49.986, df = 58.609, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -4.253749 -3.926251
## sample estimates:
## mean of x mean of y 
##     1.462     5.552

34 / 60

Prueba t de muestras independientes

Y en R podemos usar la función:

t.test(x = setosaVal, y = virginicaVal, alternative = 'two.sided', 
       mu = 0, paired = FALSE, var.equal = FALSE)

## 
##     Welch Two Sample t-test
## 
## data:  setosaVal and virginicaVal
## t = -49.986, df = 58.609, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -4.253749 -3.926251
## sample estimates:
## mean of x mean of y 
##     1.462     5.552

$H_{0} : δ = 0$
$H_{A} : δ \neq 0$

34 / 60

Prueba t de muestras independientes

Y en R podemos usar la función:

t.test(x = setosaVal, y = virginicaVal, alternative = 'two.sided', 
       mu = 0, paired = FALSE, var.equal = FALSE)

## 
##     Welch Two Sample t-test
## 
## data:  setosaVal and virginicaVal
## t = -49.986, df = 58.609, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -4.253749 -3.926251
## sample estimates:
## mean of x mean of y 
##     1.462     5.552

$H_{0} : δ = 0$
$H_{A} : δ \neq 0$

Tener cuidado al especificar los argumentos paired y var.equal.

34 / 60

Prueba t de muestras emparejadas

Tenemos: $H_{0} : δ \leq δ_{0}$ ó $H_{0} : δ \geq δ_{0}$ ó $H_{0} : δ = δ_{0}$

Donde: $δ = μ_{X} - μ_{Y}$

35 / 60

Prueba t de muestras emparejadas

Tenemos: $H_{0} : δ \leq δ_{0}$ ó $H_{0} : δ \geq δ_{0}$ ó $H_{0} : δ = δ_{0}$

Donde: $δ = μ_{X} - μ_{Y}$

Estadístico de prueba:

$t = \frac{\hat{D} - δ_{0}}{\sqrt{(s_{x}^{2} + s_{y}^{2} - 2 s_{x y}) / n}}$

$n$ es el número de individuos en la muestra. $s_{x}^{2}$ es la varianza muestral de grupo $x$ y $s_{y}^{2}$ del grupo $y$ . $\hat{D} = \bar{X} - \bar{Y}$ .

35 / 60

Prueba t de muestras emparejadas

Tenemos: $H_{0} : δ \leq δ_{0}$ ó $H_{0} : δ \geq δ_{0}$ ó $H_{0} : δ = δ_{0}$

Donde: $δ = μ_{X} - μ_{Y}$

Estadístico de prueba:

$t = \frac{\hat{D} - δ_{0}}{\sqrt{(s_{x}^{2} + s_{y}^{2} - 2 s_{x y}) / n}}$

$n$ es el número de individuos en la muestra. $s_{x}^{2}$ es la varianza muestral de grupo $x$ y $s_{y}^{2}$ del grupo $y$ . $\hat{D} = \bar{X} - \bar{Y}$ .

Distribución de referencia: $t \sim t_{n - 1}$

35 / 60

Prueba t de muestras emparejadas

Tenemos: $H_{0} : δ \leq δ_{0}$ ó $H_{0} : δ \geq δ_{0}$ ó $H_{0} : δ = δ_{0}$

Donde: $δ = μ_{X} - μ_{Y}$

Estadístico de prueba:

$t = \frac{\hat{D} - δ_{0}}{\sqrt{(s_{x}^{2} + s_{y}^{2} - 2 s_{x y}) / n}}$

$n$ es el número de individuos en la muestra. $s_{x}^{2}$ es la varianza muestral de grupo $x$ y $s_{y}^{2}$ del grupo $y$ . $\hat{D} = \bar{X} - \bar{Y}$ .

Distribución de referencia: $t \sim t_{n - 1}$

Decisión:

$H_{A} : δ > δ_{0}$ : Rechazamos $H_{0}$ cuando $t > t_{n - 1, 1 - α}$
$H_{A} : δ < δ_{0}$ : Rechazamos $H_{0}$ cuando $t < t_{n - 1, α}$
$H_{A} : δ \neq δ_{0}$ : Rechazamos $H_{0}$ cuando $∣ t ∣> t_{n - 1, 1 - α / 2}$

35 / 60

Prueba t de muestras emparejadas

Usemos la base de datos:

library(PairedData)
data(BloodLead)
head(BloodLead)

##   Pair Exposed Control
## 1  P01      38      16
## 2  P02      23      18
## 3  P03      41      18
## 4  P04      18      24
## 5  P05      37      19
## 6  P06      36      11

36 / 60

Prueba t de muestras emparejadas

En R podemos usar la función:

t.test(x = BloodLead$Exposed, y = BloodLead$Control, alternative = 'two.sided', 
       mu = 0, paired = TRUE)

## 
##     Paired t-test
## 
## data:  BloodLead$Exposed and BloodLead$Control
## t = 5.783, df = 32, p-value = 2.036e-06
## alternative hypothesis: true mean difference is not equal to 0
## 95 percent confidence interval:
##  10.34469 21.59470
## sample estimates:
## mean difference 
##         15.9697

37 / 60

Prueba t de muestras emparejadas

En R podemos usar la función:

t.test(x = BloodLead$Exposed, y = BloodLead$Control, alternative = 'two.sided', 
       mu = 0, paired = TRUE)

## 
##     Paired t-test
## 
## data:  BloodLead$Exposed and BloodLead$Control
## t = 5.783, df = 32, p-value = 2.036e-06
## alternative hypothesis: true mean difference is not equal to 0
## 95 percent confidence interval:
##  10.34469 21.59470
## sample estimates:
## mean difference 
##         15.9697

$H_{0} : δ = 0$
$H_{A} : δ \neq 0$

37 / 60

Pruebas no paramétricas

Prueba Wilcoxon Signed-Rank

Utilizado cuando tenemos observaciones emparejadas y no tenemos información para asumir una distribución normal de la variable. Usando esta prueba podemos decidir si las distribuciones de los datos comparados son idénticas.

Usemos la base de datos:

library(MASS)
head(immer)

##   Loc Var    Y1    Y2
## 1  UF   M  81.0  80.7
## 2  UF   S 105.4  82.3
## 3  UF   V 119.7  80.4
## 4  UF   T 109.7  87.2
## 5  UF   P  98.3  84.2
## 6   W   M 146.6 100.4

38 / 60

Pruebas no paramétricas

Prueba Wilcoxon Signed-Rank

En R podemos usar:

wilcox.test(x = immer$Y1, y = immer$Y2, paired=TRUE)

## Warning in wilcox.test.default(x = immer$Y1, y = immer$Y2, paired = TRUE):
## cannot compute exact p-value with ties

## 
##     Wilcoxon signed rank test with continuity correction
## 
## data:  immer$Y1 and immer$Y2
## V = 368.5, p-value = 0.005318
## alternative hypothesis: true location shift is not equal to 0

$H_{0} :$ las distribuciones son idénticas
$H_{A} :$ las distribuciones no son idénticas

39 / 60

Pruebas no paramétricas

Prueba Mann-Whitney-Wilcoxon

Utilizado cuando tenemos observaciones independientes y no tenemos información para asumir una distribución normal de la variable. Usando esta prueba podemos decidir si las distribuciones de los datos comparados son idénticas.

Usemos la base de datos:

head(mtcars)

##                    mpg cyl disp  hp drat    wt  qsec vs am gear carb
## Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
## Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1

40 / 60

Pruebas no paramétricas

Prueba Mann-Whitney-Wilcoxon

En R podemos usar:

wilcox.test(mpg ~ am, data=mtcars, paired = FALSE)

## Warning in wilcox.test.default(x = DATA[[1L]], y = DATA[[2L]], ...): cannot
## compute exact p-value with ties

## 
##     Wilcoxon rank sum test with continuity correction
## 
## data:  mpg by am
## W = 42, p-value = 0.001871
## alternative hypothesis: true location shift is not equal to 0

$H_{0} :$ las distribuciones son idénticas
$H_{A} :$ las distribuciones no son idénticas

41 / 60

Pruebas no paramétricas

Prueba Kruskal-Wallis

Usemos la base de datos:

head(airquality)

##   Ozone Solar.R Wind Temp Month Day
## 1    41     190  7.4   67     5   1
## 2    36     118  8.0   72     5   2
## 3    12     149 12.6   74     5   3
## 4    18     313 11.5   62     5   4
## 5    NA      NA 14.3   56     5   5
## 6    28      NA 14.9   66     5   6

42 / 60

Pruebas no paramétricas

Prueba Kruskal-Wallis

En R podemos usar:

kruskal.test(Ozone ~ Month, data = airquality)

## 
##     Kruskal-Wallis rank sum test
## 
## data:  Ozone by Month
## Kruskal-Wallis chi-squared = 29.267, df = 4, p-value = 6.901e-06

$H_{0} :$ las distribuciones son idénticas
$H_{A} :$ las distribuciones no son idénticas

43 / 60

Prueba Chi-cuadrado de Pearson

Empleado para hacer una prueba a una tabla de contingencia de dos variables categóricas. Evalúa si hay una asociación significativa entre las categorías de las dos variables.

myTab

##         ill
## pet      Toxo no-Toxo
##   Cat     100      20
##   No-Cat   50      30

44 / 60

Prueba Chi-cuadrado de Pearson

En R podemos usar:

chisq.test(x = myTab)

## 
##     Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  myTab
## X-squared = 10.028, df = 1, p-value = 0.001542

45 / 60

Prueba Chi-cuadrado de Pearson

En R podemos usar:

chisq.test(x = myTab)

## 
##     Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  myTab
## X-squared = 10.028, df = 1, p-value = 0.001542

$H_{0} :$ las variables son independientes entre ellas
$H_{A} :$ las variables no son independientes entre ellas

45 / 60

Análisis de Varianza (ANOVA)46 / 60

ANOVA

Tenemos varias muestras de diferentes poblaciones:

47 / 60

ANOVA

Tenemos varias muestras de diferentes poblaciones:

Muestra 1: $X_{11}, . . ., X_{1 n_{1}}$ de la población 1 con media $μ_{1}$ y varianza $σ_{1}^{2}$ .
Muestra 2: $X_{21}, . . ., X_{2 n_{2}}$ de la población 2 con media $μ_{2}$ y varianza $σ_{2}^{2}$ .
Muestra m: $X_{m 1}, . . ., X_{m n_{m}}$ de la población m con media $μ_{m}$ y varianza $σ_{m}^{2}$ .

47 / 60

ANOVA

La pregunta al usar un ANOVA es: ¿Son las medias poblacionales iguales una con otra?

48 / 60

ANOVA

La pregunta al usar un ANOVA es: ¿Son las medias poblacionales iguales una con otra?

Por lo tanto, la hipótesis nula es:

$H_{0} : μ_{1} = μ_{2} = . . . = μ_{m}$

48 / 60

ANOVA

La pregunta al usar un ANOVA es: ¿Son las medias poblacionales iguales una con otra?

Por lo tanto, la hipótesis nula es:

$H_{0} : μ_{1} = μ_{2} = . . . = μ_{m}$

La hipótesis alternativa es:

$H_{A} : μ_{1} \neq μ_{2} \neq . . . \neq μ_{m}$

48 / 60

ANOVA

La pregunta al usar un ANOVA es: ¿Son las medias poblacionales iguales una con otra?

Por lo tanto, la hipótesis nula es:

$H_{0} : μ_{1} = μ_{2} = . . . = μ_{m}$

La hipótesis alternativa es:

$H_{A} : μ_{1} \neq μ_{2} \neq . . . \neq μ_{m}$

En palabras sencillas, un ANOVA compara la varianza dentro de los grupos con la varianza de todas las observaciones juntas para decidir si las medias poblacionales son iguales (es por esto que es llamado análisis de varianza).

48 / 60

ANOVA

49 / 60

ANOVA

Supuestos:

Independencia dentro de grupos
Independencia entre grupos
Normalidad de la variable
Igual varianza en todas las poblaciones

50 / 60

ANOVA

Ejemplo:

51 / 60

ANOVA

A razonar:

52 / 60

ANOVA

Observamos diferencias significativas?

53 / 60

ANOVA

Hagamos un ANOVA para la variable seleccionada:

myAnova = aov(Sepal.Length ~ Species, data = iris)
summary(myAnova)

##              Df Sum Sq Mean Sq F value Pr(>F)    
## Species       2  63.21  31.606   119.3 <2e-16 ***
## Residuals   147  38.96   0.265                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

54 / 60

Comparaciones de pares múltiples

Un ANOVA nos dice si alguna media es diferente, pero no nos dice cuál.

55 / 60

Comparaciones de pares múltiples

Un ANOVA nos dice si alguna media es diferente, pero no nos dice cuál.

Si queremos comparar medias por pares, podemos usar una prueba Tukey.

Prueba Tukey

TukeyHSD(x = myAnova)

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Sepal.Length ~ Species, data = iris)
## 
## $Species
##                       diff       lwr       upr p adj
## versicolor-setosa    0.930 0.6862273 1.1737727     0
## virginica-setosa     1.582 1.3382273 1.8257727     0
## virginica-versicolor 0.652 0.4082273 0.8957727     0

55 / 60

ANOVA

Tenemos que verificar los supuestos de un ANOVA:

56 / 60

ANOVA

Tenemos que verificar los supuestos de un ANOVA:

Homogeneidad de varianza

56 / 60

ANOVA

Homogeneidad de varianza

library(car)
leveneTest(y = myAnova)

## Levene's Test for Homogeneity of Variance (center = median)
##        Df F value   Pr(>F)   
## group   2  6.3527 0.002259 **
##       147                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

$H_{0}$ : varianzas son iguales (homogéneas)
$H_{A}$ : varianzas no son iguales (homogéneas)

57 / 60

ANOVA

Normalidad

58 / 60

ANOVA

Normalidad: Prueba de Shapiro

aov_residuals <- residuals(object = myAnova )
shapiro.test(x = aov_residuals )

## 
##     Shapiro-Wilk normality test
## 
## data:  aov_residuals
## W = 0.9879, p-value = 0.2189

$H_{0}$ : la distribución es normal
$H_{A}$ : la distribución no es normal

59 / 60

Gracias!

Contacto: cursos@cousteau-group.com

60 / 60

↑, ←, Pg Up, k	Go to previous slide
↓, →, Pg Dn, Space, j	Go to next slide
Home	Go to first slide
End	Go to last slide
Number + Return	Go to specific slide
b / m / f	Toggle blackout / mirrored / fullscreen mode
c	Clone slideshow
p	Toggle presenter mode
t	Restart the presentation timer
?, h	Toggle this help