+ - 0:00:00
Notes for current slide
Notes for next slide

AlwaysR, Módulo III: Estadística en R

Clase 2: Pruebas de hipótesis. ANOVA. Comparaciones múltiples.

Dr. Giancarlo M. Correa

1 / 60

Pruebas de hipótesis

2 / 60

Tipos de estudios

Experimental

  • Laboratorio ó en campo

  • Podemos elegir a los individuos

  • Requiere manipulación

  • Normalmente usado para estudiar diferentes ‘tratamientos’

  • Puede determinar causalidad

3 / 60

Tipos de estudios

Observacional

  • En campo

  • Diseño de muestreo

  • Los individuos no son elegidos a voluntad

  • Utilizado normalmente para estudiar diferentes ‘tratamientos’ y realizar inferencias acerca de la población

  • Difícil para determinar causalidad

4 / 60

Prueba de hipótesis

  • De una muestra

  • De dos muestras

5 / 60

Prueba de hipótesis

  • De una muestra

  • De dos muestras

5 / 60

Prueba de hipótesis

  • Hipótesis nula ( H0 ): Un valor especificado o rango de valores para el parámetro de interés. Normalmente representa los valores ‘no interesantes’.

Ejemplo: H0:μ=0

6 / 60

Prueba de hipótesis

  • Hipótesis nula ( H0 ): Un valor especificado o rango de valores para el parámetro de interés. Normalmente representa los valores ‘no interesantes’.

Ejemplo: H0:μ=0

  • Hipótesis alternativa ( HA ): Un valor especificado diferente o rango de valores para el parámetro de interés. Normalmente representan los valores ‘interesantes’.

Ejemplo: HA:μ0

6 / 60

Prueba de hipótesis

Podemos obtener dos resultados:

  • Rechazar la hipótesis nula
  • Fallar en rechazar la hipótesis nula
7 / 60

Prueba de hipótesis

Podemos obtener dos resultados:

  • Rechazar la hipótesis nula
  • Fallar en rechazar la hipótesis nula

7 / 60

Componentes de una prueba de hipótesis

  • Nivel de significancia ( α ): probabilidad de un error Tipo I (rechazar la hipótesis nula cuando de hecho es verdadera).
8 / 60

Componentes de una prueba de hipótesis

  • Nivel de significancia ( α ): probabilidad de un error Tipo I (rechazar la hipótesis nula cuando de hecho es verdadera).

  • Estadístico de prueba: Valor calculado a partir de una función de los valores muestreados que es usado para decidir entre la hipótesis nula o alternativa.

8 / 60

Componentes de una prueba de hipótesis

  • Nivel de significancia ( α ): probabilidad de un error Tipo I (rechazar la hipótesis nula cuando de hecho es verdadera).

  • Estadístico de prueba: Valor calculado a partir de una función de los valores muestreados que es usado para decidir entre la hipótesis nula o alternativa.

  • Distribución de referencia: Distribución que usamos para decidir si rechazamos la hipótesis nula.

8 / 60

Componentes de una prueba de hipótesis

  • Nivel de significancia ( α ): probabilidad de un error Tipo I (rechazar la hipótesis nula cuando de hecho es verdadera).

  • Estadístico de prueba: Valor calculado a partir de una función de los valores muestreados que es usado para decidir entre la hipótesis nula o alternativa.

  • Distribución de referencia: Distribución que usamos para decidir si rechazamos la hipótesis nula.

  • Región de rechazo: Valores para los cuales la hipótesis nula será rechazada.

8 / 60

Componentes de una prueba de hipótesis

  • Nivel de significancia ( α ): probabilidad de un error Tipo I (rechazar la hipótesis nula cuando de hecho es verdadera).

  • Estadístico de prueba: Valor calculado a partir de una función de los valores muestreados que es usado para decidir entre la hipótesis nula o alternativa.

  • Distribución de referencia: Distribución que usamos para decidir si rechazamos la hipótesis nula.

  • Región de rechazo: Valores para los cuales la hipótesis nula será rechazada.

  • Valor crítico: Valor con el cual el estadístico de prueba será comparado para decidir si rechazamos la hipótesis nula.

8 / 60

Componentes de una prueba de hipótesis

Ejemplo:

9 / 60

Componentes de una prueba de hipótesis

Ejemplo:

  • c es el valor crítico
  • La zona roja es la zona de rechazo
  • La distribución normal es la distribución de referencia
9 / 60

Pruebas de hipótesis de una muestra

10 / 60

Prueba Z (Z-test)

Cuando conocemos la varianza poblacional.

Tenemos: H0:μμ0 ó H0:μμ0 ó H0:μ=μ0

11 / 60

Prueba Z (Z-test)

Cuando conocemos la varianza poblacional.

Tenemos: H0:μμ0 ó H0:μμ0 ó H0:μ=μ0

Estadístico de prueba:

Z=X¯μ0σ2/n

Se asume que la varianza de la población es conocida ( σ2 ). n es el individuos en la muestra. X¯ es la media de la muestra.

11 / 60

Prueba Z (Z-test)

Cuando conocemos la varianza poblacional.

Tenemos: H0:μμ0 ó H0:μμ0 ó H0:μ=μ0

Estadístico de prueba:

Z=X¯μ0σ2/n

Se asume que la varianza de la población es conocida ( σ2 ). n es el individuos en la muestra. X¯ es la media de la muestra.

Distribución de referencia: ZN(0,1)

11 / 60

Prueba Z (Z-test)

Cuando conocemos la varianza poblacional.

Tenemos: H0:μμ0 ó H0:μμ0 ó H0:μ=μ0

Estadístico de prueba:

Z=X¯μ0σ2/n

Se asume que la varianza de la población es conocida ( σ2 ). n es el individuos en la muestra. X¯ es la media de la muestra.

Distribución de referencia: ZN(0,1)

Decisión:

  • HA:μ>μ0: Rechazamos H0 cuando Z>z1α
  • HA:μ<μ0: Rechazamos H0 cuando Z<z1α
  • HA:μμ0: Rechazamos H0 cuando Z∣>z1α/2
11 / 60

P-valor

  • p-value: Probabilidad de observar una media muestral que es tanto o más extrema que la observada, bajo la hipótesis nula es verdadera.

12 / 60

P-valor

  • p-value: Probabilidad de observar una media muestral que es tanto o más extrema que la observada, bajo la hipótesis nula es verdadera.

Valores muy pequeños de p-value nos llevarán a rechazar la hipótesis nula.

12 / 60

Prueba Z (Z-test)

Ejemplo: Dado H0:μ=12 y HA:μ12. Obtenemos un Z=2.1 y un pvalue=0.0357. La correcta interpretación es: Hay 3.57% de probabilidad de observar el Z obtenido (o uno mayor) cuando la hipótesis nula es verdadera ( μ=12 ).

13 / 60

Prueba Z (Z-test)

Ejemplo: Dado H0:μ=12 y HA:μ12. Obtenemos un Z=2.1 y un pvalue=0.0357. La correcta interpretación es: Hay 3.57% de probabilidad de observar el Z obtenido (o uno mayor) cuando la hipótesis nula es verdadera ( μ=12 ).

13 / 60

Prueba Z (Z-test)

Veamos la distribución de la variable Sepal.Width de la base de datos iris:

14 / 60

Prueba Z (Z-test)

Para:

  • H0:μ=0
  • HA:μ0
  • σ=0.4

En R podemos usar (librería BSDA):

z.test(x = iris$Sepal.Width, alternative = 'two.sided',
mu = 0, sigma.x = 0.4)
##
## One-sample z-Test
##
## data: iris$Sepal.Width
## z = 93.611, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 2.993321 3.121345
## sample estimates:
## mean of x
## 3.057333
15 / 60

Intervalos de confianza

El intervalo construido contendrá el valor verdadero de μ (media de la población) el (1α)100% de las veces que repetimos el experimento.

16 / 60

Intervalos de confianza

El intervalo construido contendrá el valor verdadero de μ (media de la población) el (1α)100% de las veces que repetimos el experimento.

16 / 60

Intervalos de confianza

El intervalo construido contendrá el valor verdadero de μ (media de la población) el (1α)100% de las veces que repetimos el experimento.

  • NO es correcto decir que hay (1α)100% de probabilidad que la media de la población este en este intervalo (de un experimento en específico).
16 / 60

Prueba Z (Z-test)

Para:

  • H0:μ0
  • HA:μ<0
  • σ=0.4

En R podemos usar (librería BSDA):

z.test(x = iris$Sepal.Width, alternative = 'less',
mu = 0, sigma.x = 0.4)
##
## One-sample z-Test
##
## data: iris$Sepal.Width
## z = 93.611, p-value = 1
## alternative hypothesis: true mean is less than 0
## 95 percent confidence interval:
## NA 3.111054
## sample estimates:
## mean of x
## 3.057333
17 / 60

Prueba Z (Z-test)

Para:

  • H0:μ0
  • HA:μ>0
  • σ=0.4

En R podemos usar (librería BSDA):

z.test(x = iris$Sepal.Width, alternative = 'greater',
mu = 0, sigma.x = 0.4)
##
## One-sample z-Test
##
## data: iris$Sepal.Width
## z = 93.611, p-value < 2.2e-16
## alternative hypothesis: true mean is greater than 0
## 95 percent confidence interval:
## 3.003613 NA
## sample estimates:
## mean of x
## 3.057333
18 / 60

Prueba t (t-test)

Cuando no conocemos la varianza poblacional pero si la muestral.

Tenemos: H0:μμ0 ó H0:μμ0 ó H0:μ=μ0

19 / 60

Prueba t (t-test)

Cuando no conocemos la varianza poblacional pero si la muestral.

Tenemos: H0:μμ0 ó H0:μμ0 ó H0:μ=μ0

Estadístico de prueba:

t=X¯μ0s2/n

n es el individuos en la muestra. X¯ es la media de la muestra. s2 es la varianza muestral.

19 / 60

Prueba t (t-test)

Cuando no conocemos la varianza poblacional pero si la muestral.

Tenemos: H0:μμ0 ó H0:μμ0 ó H0:μ=μ0

Estadístico de prueba:

t=X¯μ0s2/n

n es el individuos en la muestra. X¯ es la media de la muestra. s2 es la varianza muestral.

Distribución de referencia: ttn1

19 / 60

Prueba t (t-test)

Cuando no conocemos la varianza poblacional pero si la muestral.

Tenemos: H0:μμ0 ó H0:μμ0 ó H0:μ=μ0

Estadístico de prueba:

t=X¯μ0s2/n

n es el individuos en la muestra. X¯ es la media de la muestra. s2 es la varianza muestral.

Distribución de referencia: ttn1

Decisión:

  • HA:μ>μ0: Rechazamos H0 cuando t>tn1,1α
  • HA:μ<μ0: Rechazamos H0 cuando t<tn1,α
  • HA:μμ0: Rechazamos H0 cuando t∣>tn1,1α/2
19 / 60

Prueba t (t-test)

Para:

  • H0:μ=0
  • HA:μ0

En R podemos usar:

t.test(x = iris$Sepal.Width, alternative = 'two.sided',
mu = 0)
##
## One Sample t-test
##
## data: iris$Sepal.Width
## t = 85.908, df = 149, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 2.987010 3.127656
## sample estimates:
## mean of x
## 3.057333
20 / 60

Prueba binomial (exacta)

Ejemplo:

Supongamos que realizo un muestreo de una población y capturé 30 individuos ( n=30 ). El evento de interés es que un individuo sea macho ( p=P(macho) ). Tenemos que H0:p0.5 y HA:p>0.5. Entonces:

  • Si observo X=5 machos, debo rechazar H0?
21 / 60

Prueba binomial (exacta)

Ejemplo:

Supongamos que realizo un muestreo de una población y capturé 30 individuos ( n=30 ). El evento de interés es que un individuo sea macho ( p=P(macho) ). Tenemos que H0:p0.5 y HA:p>0.5. Entonces:

  • Si observo X=5 machos, debo rechazar H0?

  • Si observo X=15 machos, debo rechazar H0?

21 / 60

Prueba binomial (exacta)

Ejemplo:

Supongamos que realizo un muestreo de una población y capturé 30 individuos ( n=30 ). El evento de interés es que un individuo sea macho ( p=P(macho) ). Tenemos que H0:p0.5 y HA:p>0.5. Entonces:

  • Si observo X=5 machos, debo rechazar H0?

  • Si observo X=15 machos, debo rechazar H0?

  • Si observo X=25 machos, debo rechazar H0?

21 / 60

Prueba binomial (exacta)

22 / 60

Prueba binomial (exacta)

Tenemos: H0:pp0 ó H0:pp0 ó H0:p=p0

23 / 60

Prueba binomial (exacta)

Tenemos: H0:pp0 ó H0:pp0 ó H0:p=p0

Distribución de referencia: XBinom(n,p0)

Donde X=i=1nYi, e Yi es un evento con éxito/fracaso:

P(Yi=1)=pP(Yi=0)=1p

23 / 60

Prueba binomial (exacta)

Tenemos: H0:pp0 ó H0:pp0 ó H0:p=p0

Distribución de referencia: XBinom(n,p0)

Donde X=i=1nYi, e Yi es un evento con éxito/fracaso:

P(Yi=1)=pP(Yi=0)=1p

Decisión:

  • HA:p>p0: Rechazamos H0 cuando?
  • HA:p<p0: Rechazamos H0 cuando?
  • HA:pp0: Rechazamos H0 cuando?
23 / 60

Prueba binomial (exacta)

24 / 60

Prueba binomial (exacta)

Tenemos:

  • H0:p=0.5
  • HA:p0.5

Para la variable Species de la base de datos iris, donde la presencia de la especie setosa es mi evento de interés:

X = sum(iris$Species == 'setosa')
n = nrow(iris)
25 / 60

Prueba binomial (exacta)

  • H0:p=0.5
  • HA:p0.5

En R podemos usar:

binom.test(x = X, n = n, p = 0.5, alternative = 'two.sided')
##
## Exact binomial test
##
## data: X and n
## number of successes = 50, number of trials = 150, p-value = 5.448e-05
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
## 0.2585564 0.4148430
## sample estimates:
## probability of success
## 0.3333333
26 / 60

Prueba Kolmogorov-Smirnov

Utilizada para testear la distribución de una variable.

27 / 60

Prueba Kolmogorov-Smirnov

Utilizada para testear la distribución de una variable.

Estadístico de prueba:

D=supxF^(x)F0(x)

Donde F^(x)=1ni=1n1{Xix}, la cual es la proporción de observaciones menores a x.

27 / 60

Prueba Kolmogorov-Smirnov

Utilizada para testear la distribución de una variable.

Estadístico de prueba:

D=supxF^(x)F0(x)

Donde F^(x)=1ni=1n1{Xix}, la cual es la proporción de observaciones menores a x.

27 / 60

Prueba Kolmogorov-Smirnov

Simulamos una variable:

rVar = rnorm(n = 100, mean = 5, sd = 1)
hist(rVar)

28 / 60

Prueba Kolmogorov-Smirnov

En R podemos usar:

ks.test(x = rVar, y = 'pnorm', mean = 3, sd = 0.4,
alternative = 'two.sided')
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: rVar
## D = 0.89207, p-value < 2.2e-16
## alternative hypothesis: two-sided
29 / 60

Prueba Kolmogorov-Smirnov

En R podemos usar:

ks.test(x = rVar, y = 'pnorm', mean = 3, sd = 0.4,
alternative = 'two.sided')
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: rVar
## D = 0.89207, p-value < 2.2e-16
## alternative hypothesis: two-sided

En este caso:

  • H0:F(x)=N(3,0.42)
  • HA:F(x)N(3,0.42)
29 / 60

Pruebas de hipótesis de dos muestras

30 / 60

Tipos de pruebas de dos muestras

  • Muestras emparejadas: un individuo muestreado en la primera muestra está relacionado a otro único individuos en la segunda muestra.
31 / 60

Tipos de pruebas de dos muestras

  • Muestras emparejadas: un individuo muestreado en la primera muestra está relacionado a otro único individuos en la segunda muestra.

  • Muestras independientes: individuos de la primera muestra son independientes a los individuos de la segunda muestra.

31 / 60

Prueba t de muestras independientes

Tenemos: H0:δδ0 ó H0:δδ0 ó H0:δ=δ0

Donde: δ=μXμY

32 / 60

Prueba t de muestras independientes

Tenemos: H0:δδ0 ó H0:δδ0 ó H0:δ=δ0

Donde: δ=μXμY

Estadístico de prueba:

t=δ^δ0sp2/m+sp2/n

m es el número de individuos en la muestra 1 y n es el número de individuos en la muestra 2. X¯ es la media de la muestra. sp2 es la varianza agrupada. δ^=X¯Y¯.

32 / 60

Prueba t de muestras independientes

Tenemos: H0:δδ0 ó H0:δδ0 ó H0:δ=δ0

Donde: δ=μXμY

Estadístico de prueba:

t=δ^δ0sp2/m+sp2/n

m es el número de individuos en la muestra 1 y n es el número de individuos en la muestra 2. X¯ es la media de la muestra. sp2 es la varianza agrupada. δ^=X¯Y¯.

Distribución de referencia: ttm+n2

32 / 60

Prueba t de muestras independientes

Tenemos: H0:δδ0 ó H0:δδ0 ó H0:δ=δ0

Donde: δ=μXμY

Estadístico de prueba:

t=δ^δ0sp2/m+sp2/n

m es el número de individuos en la muestra 1 y n es el número de individuos en la muestra 2. X¯ es la media de la muestra. sp2 es la varianza agrupada. δ^=X¯Y¯.

Distribución de referencia: ttm+n2

Decisión:

  • HA:δ>δ0: Rechazamos H0 cuando t>tm+n2,1α
  • HA:δ<δ0: Rechazamos H0 cuando t<tm+n2,α
  • HA:δδ0: Rechazamos H0 cuando t∣>tm+n2,1α/2
32 / 60

Prueba t de muestras independientes

Para la variable Petal.Length, podemos seleccionar los valores para la especie setosa y virginica:

setosaVal = iris$Petal.Length[iris$Species == 'setosa']
virginicaVal = iris$Petal.Length[iris$Species == 'virginica']
33 / 60

Prueba t de muestras independientes

Y en R podemos usar la función:

t.test(x = setosaVal, y = virginicaVal, alternative = 'two.sided',
mu = 0, paired = FALSE, var.equal = FALSE)
##
## Welch Two Sample t-test
##
## data: setosaVal and virginicaVal
## t = -49.986, df = 58.609, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -4.253749 -3.926251
## sample estimates:
## mean of x mean of y
## 1.462 5.552
34 / 60

Prueba t de muestras independientes

Y en R podemos usar la función:

t.test(x = setosaVal, y = virginicaVal, alternative = 'two.sided',
mu = 0, paired = FALSE, var.equal = FALSE)
##
## Welch Two Sample t-test
##
## data: setosaVal and virginicaVal
## t = -49.986, df = 58.609, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -4.253749 -3.926251
## sample estimates:
## mean of x mean of y
## 1.462 5.552
  • H0:δ=0
  • HA:δ0
34 / 60

Prueba t de muestras independientes

Y en R podemos usar la función:

t.test(x = setosaVal, y = virginicaVal, alternative = 'two.sided',
mu = 0, paired = FALSE, var.equal = FALSE)
##
## Welch Two Sample t-test
##
## data: setosaVal and virginicaVal
## t = -49.986, df = 58.609, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -4.253749 -3.926251
## sample estimates:
## mean of x mean of y
## 1.462 5.552
  • H0:δ=0
  • HA:δ0

Tener cuidado al especificar los argumentos paired y var.equal.

34 / 60

Prueba t de muestras emparejadas

Tenemos: H0:δδ0 ó H0:δδ0 ó H0:δ=δ0

Donde: δ=μXμY

35 / 60

Prueba t de muestras emparejadas

Tenemos: H0:δδ0 ó H0:δδ0 ó H0:δ=δ0

Donde: δ=μXμY

Estadístico de prueba:

t=D^δ0(sx2+sy22sxy)/n

n es el número de individuos en la muestra. sx2 es la varianza muestral de grupo x y sy2 del grupo y. D^=X¯Y¯.

35 / 60

Prueba t de muestras emparejadas

Tenemos: H0:δδ0 ó H0:δδ0 ó H0:δ=δ0

Donde: δ=μXμY

Estadístico de prueba:

t=D^δ0(sx2+sy22sxy)/n

n es el número de individuos en la muestra. sx2 es la varianza muestral de grupo x y sy2 del grupo y. D^=X¯Y¯.

Distribución de referencia: ttn1

35 / 60

Prueba t de muestras emparejadas

Tenemos: H0:δδ0 ó H0:δδ0 ó H0:δ=δ0

Donde: δ=μXμY

Estadístico de prueba:

t=D^δ0(sx2+sy22sxy)/n

n es el número de individuos en la muestra. sx2 es la varianza muestral de grupo x y sy2 del grupo y. D^=X¯Y¯.

Distribución de referencia: ttn1

Decisión:

  • HA:δ>δ0: Rechazamos H0 cuando t>tn1,1α
  • HA:δ<δ0: Rechazamos H0 cuando t<tn1,α
  • HA:δδ0: Rechazamos H0 cuando t∣>tn1,1α/2
35 / 60

Prueba t de muestras emparejadas

Usemos la base de datos:

library(PairedData)
data(BloodLead)
head(BloodLead)
## Pair Exposed Control
## 1 P01 38 16
## 2 P02 23 18
## 3 P03 41 18
## 4 P04 18 24
## 5 P05 37 19
## 6 P06 36 11
36 / 60

Prueba t de muestras emparejadas

En R podemos usar la función:

t.test(x = BloodLead$Exposed, y = BloodLead$Control, alternative = 'two.sided',
mu = 0, paired = TRUE)
##
## Paired t-test
##
## data: BloodLead$Exposed and BloodLead$Control
## t = 5.783, df = 32, p-value = 2.036e-06
## alternative hypothesis: true mean difference is not equal to 0
## 95 percent confidence interval:
## 10.34469 21.59470
## sample estimates:
## mean difference
## 15.9697
37 / 60

Prueba t de muestras emparejadas

En R podemos usar la función:

t.test(x = BloodLead$Exposed, y = BloodLead$Control, alternative = 'two.sided',
mu = 0, paired = TRUE)
##
## Paired t-test
##
## data: BloodLead$Exposed and BloodLead$Control
## t = 5.783, df = 32, p-value = 2.036e-06
## alternative hypothesis: true mean difference is not equal to 0
## 95 percent confidence interval:
## 10.34469 21.59470
## sample estimates:
## mean difference
## 15.9697
  • H0:δ=0
  • HA:δ0
37 / 60

Pruebas no paramétricas

Prueba Wilcoxon Signed-Rank

Utilizado cuando tenemos observaciones emparejadas y no tenemos información para asumir una distribución normal de la variable. Usando esta prueba podemos decidir si las distribuciones de los datos comparados son idénticas.

Usemos la base de datos:

library(MASS)
head(immer)
## Loc Var Y1 Y2
## 1 UF M 81.0 80.7
## 2 UF S 105.4 82.3
## 3 UF V 119.7 80.4
## 4 UF T 109.7 87.2
## 5 UF P 98.3 84.2
## 6 W M 146.6 100.4
38 / 60

Pruebas no paramétricas

Prueba Wilcoxon Signed-Rank

En R podemos usar:

wilcox.test(x = immer$Y1, y = immer$Y2, paired=TRUE)
## Warning in wilcox.test.default(x = immer$Y1, y = immer$Y2, paired = TRUE):
## cannot compute exact p-value with ties
##
## Wilcoxon signed rank test with continuity correction
##
## data: immer$Y1 and immer$Y2
## V = 368.5, p-value = 0.005318
## alternative hypothesis: true location shift is not equal to 0
  • H0: las distribuciones son idénticas
  • HA: las distribuciones no son idénticas
39 / 60

Pruebas no paramétricas

Prueba Mann-Whitney-Wilcoxon

Utilizado cuando tenemos observaciones independientes y no tenemos información para asumir una distribución normal de la variable. Usando esta prueba podemos decidir si las distribuciones de los datos comparados son idénticas.

Usemos la base de datos:

head(mtcars)
## mpg cyl disp hp drat wt qsec vs am gear carb
## Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
## Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
## Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
## Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
## Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
## Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
40 / 60

Pruebas no paramétricas

Prueba Mann-Whitney-Wilcoxon

En R podemos usar:

wilcox.test(mpg ~ am, data=mtcars, paired = FALSE)
## Warning in wilcox.test.default(x = DATA[[1L]], y = DATA[[2L]], ...): cannot
## compute exact p-value with ties
##
## Wilcoxon rank sum test with continuity correction
##
## data: mpg by am
## W = 42, p-value = 0.001871
## alternative hypothesis: true location shift is not equal to 0
  • H0: las distribuciones son idénticas
  • HA: las distribuciones no son idénticas
41 / 60

Pruebas no paramétricas

Prueba Kruskal-Wallis

Utilizado cuando tenemos observaciones independientes y no tenemos información para asumir una distribución normal de la variable. Usando esta prueba podemos decidir si las distribuciones de los datos comparados son idénticas.

Usemos la base de datos:

head(airquality)
## Ozone Solar.R Wind Temp Month Day
## 1 41 190 7.4 67 5 1
## 2 36 118 8.0 72 5 2
## 3 12 149 12.6 74 5 3
## 4 18 313 11.5 62 5 4
## 5 NA NA 14.3 56 5 5
## 6 28 NA 14.9 66 5 6
42 / 60

Pruebas no paramétricas

Prueba Kruskal-Wallis

En R podemos usar:

kruskal.test(Ozone ~ Month, data = airquality)
##
## Kruskal-Wallis rank sum test
##
## data: Ozone by Month
## Kruskal-Wallis chi-squared = 29.267, df = 4, p-value = 6.901e-06
  • H0: las distribuciones son idénticas
  • HA: las distribuciones no son idénticas
43 / 60

Prueba Chi-cuadrado de Pearson

Empleado para hacer una prueba a una tabla de contingencia de dos variables categóricas. Evalúa si hay una asociación significativa entre las categorías de las dos variables.

myTab
## ill
## pet Toxo no-Toxo
## Cat 100 20
## No-Cat 50 30
44 / 60

Prueba Chi-cuadrado de Pearson

En R podemos usar:

chisq.test(x = myTab)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: myTab
## X-squared = 10.028, df = 1, p-value = 0.001542
45 / 60

Prueba Chi-cuadrado de Pearson

En R podemos usar:

chisq.test(x = myTab)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: myTab
## X-squared = 10.028, df = 1, p-value = 0.001542
  • H0: las variables son independientes entre ellas
  • HA: las variables no son independientes entre ellas
45 / 60

Análisis de Varianza (ANOVA)

46 / 60

ANOVA

Tenemos varias muestras de diferentes poblaciones:

47 / 60

ANOVA

Tenemos varias muestras de diferentes poblaciones:

  • Muestra 1: X11,...,X1n1 de la población 1 con media μ1 y varianza σ12.

  • Muestra 2: X21,...,X2n2 de la población 2 con media μ2 y varianza σ22.

  • Muestra m: Xm1,...,Xmnm de la población m con media μm y varianza σm2.

47 / 60

ANOVA

La pregunta al usar un ANOVA es: ¿Son las medias poblacionales iguales una con otra?

48 / 60

ANOVA

La pregunta al usar un ANOVA es: ¿Son las medias poblacionales iguales una con otra?

Por lo tanto, la hipótesis nula es:

H0:μ1=μ2=...=μm

48 / 60

ANOVA

La pregunta al usar un ANOVA es: ¿Son las medias poblacionales iguales una con otra?

Por lo tanto, la hipótesis nula es:

H0:μ1=μ2=...=μm

La hipótesis alternativa es:

HA:μ1μ2...μm

48 / 60

ANOVA

La pregunta al usar un ANOVA es: ¿Son las medias poblacionales iguales una con otra?

Por lo tanto, la hipótesis nula es:

H0:μ1=μ2=...=μm

La hipótesis alternativa es:

HA:μ1μ2...μm

En palabras sencillas, un ANOVA compara la varianza dentro de los grupos con la varianza de todas las observaciones juntas para decidir si las medias poblacionales son iguales (es por esto que es llamado análisis de varianza).

48 / 60

ANOVA

49 / 60

ANOVA

Supuestos:

  • Independencia dentro de grupos

  • Independencia entre grupos

  • Normalidad de la variable

  • Igual varianza en todas las poblaciones

50 / 60

ANOVA

Ejemplo:

51 / 60

ANOVA

A razonar:

52 / 60

ANOVA

Observamos diferencias significativas?

53 / 60

ANOVA

Hagamos un ANOVA para la variable seleccionada:

myAnova = aov(Sepal.Length ~ Species, data = iris)
summary(myAnova)
## Df Sum Sq Mean Sq F value Pr(>F)
## Species 2 63.21 31.606 119.3 <2e-16 ***
## Residuals 147 38.96 0.265
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
54 / 60

Comparaciones de pares múltiples

Un ANOVA nos dice si alguna media es diferente, pero no nos dice cuál.

55 / 60

Comparaciones de pares múltiples

Un ANOVA nos dice si alguna media es diferente, pero no nos dice cuál.

Si queremos comparar medias por pares, podemos usar una prueba Tukey.

Prueba Tukey

TukeyHSD(x = myAnova)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Sepal.Length ~ Species, data = iris)
##
## $Species
## diff lwr upr p adj
## versicolor-setosa 0.930 0.6862273 1.1737727 0
## virginica-setosa 1.582 1.3382273 1.8257727 0
## virginica-versicolor 0.652 0.4082273 0.8957727 0
55 / 60

ANOVA

Tenemos que verificar los supuestos de un ANOVA:

56 / 60

ANOVA

Tenemos que verificar los supuestos de un ANOVA:

Homogeneidad de varianza

56 / 60

ANOVA

Homogeneidad de varianza

library(car)
leveneTest(y = myAnova)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 6.3527 0.002259 **
## 147
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
  • H0: varianzas son iguales (homogéneas)
  • HA: varianzas no son iguales (homogéneas)
57 / 60

ANOVA

Normalidad

58 / 60

ANOVA

Normalidad: Prueba de Shapiro

aov_residuals <- residuals(object = myAnova )
shapiro.test(x = aov_residuals )
##
## Shapiro-Wilk normality test
##
## data: aov_residuals
## W = 0.9879, p-value = 0.2189
  • H0: la distribución es normal
  • HA: la distribución no es normal
59 / 60

Gracias!

Contacto: cursos@cousteau-group.com

60 / 60

Pruebas de hipótesis

2 / 60
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow