Ejemplo: H0:μ=0
Ejemplo: HA:μ≠0
Nivel de significancia ( α ): probabilidad de un error Tipo I (rechazar la hipótesis nula cuando de hecho es verdadera).
Estadístico de prueba: Valor calculado a partir de una función de los valores muestreados que es usado para decidir entre la hipótesis nula o alternativa.
Nivel de significancia ( α ): probabilidad de un error Tipo I (rechazar la hipótesis nula cuando de hecho es verdadera).
Estadístico de prueba: Valor calculado a partir de una función de los valores muestreados que es usado para decidir entre la hipótesis nula o alternativa.
Distribución de referencia: Distribución que usamos para decidir si rechazamos la hipótesis nula.
Nivel de significancia ( α ): probabilidad de un error Tipo I (rechazar la hipótesis nula cuando de hecho es verdadera).
Estadístico de prueba: Valor calculado a partir de una función de los valores muestreados que es usado para decidir entre la hipótesis nula o alternativa.
Distribución de referencia: Distribución que usamos para decidir si rechazamos la hipótesis nula.
Región de rechazo: Valores para los cuales la hipótesis nula será rechazada.
Nivel de significancia ( α ): probabilidad de un error Tipo I (rechazar la hipótesis nula cuando de hecho es verdadera).
Estadístico de prueba: Valor calculado a partir de una función de los valores muestreados que es usado para decidir entre la hipótesis nula o alternativa.
Distribución de referencia: Distribución que usamos para decidir si rechazamos la hipótesis nula.
Región de rechazo: Valores para los cuales la hipótesis nula será rechazada.
Valor crítico: Valor con el cual el estadístico de prueba será comparado para decidir si rechazamos la hipótesis nula.
Cuando conocemos la varianza poblacional.
Tenemos: H0:μ≤μ0 ó H0:μ≥μ0 ó H0:μ=μ0
Estadístico de prueba:
Z=¯X−μ0√σ2/n
Se asume que la varianza de la población es conocida ( σ2 ). n es el individuos en la muestra. ¯X es la media de la muestra.
Distribución de referencia: Z∼N(0,1)
Cuando conocemos la varianza poblacional.
Tenemos: H0:μ≤μ0 ó H0:μ≥μ0 ó H0:μ=μ0
Estadístico de prueba:
Z=¯X−μ0√σ2/n
Se asume que la varianza de la población es conocida ( σ2 ). n es el individuos en la muestra. ¯X es la media de la muestra.
Distribución de referencia: Z∼N(0,1)
Decisión:
Para:
En R podemos usar (librería BSDA
):
z.test(x = iris$Sepal.Width, alternative = 'two.sided', mu = 0, sigma.x = 0.4)
## ## One-sample z-Test## ## data: iris$Sepal.Width## z = 93.611, p-value < 2.2e-16## alternative hypothesis: true mean is not equal to 0## 95 percent confidence interval:## 2.993321 3.121345## sample estimates:## mean of x ## 3.057333
El intervalo construido contendrá el valor verdadero de μ (media de la población) el (1−α)100% de las veces que repetimos el experimento.
Para:
En R podemos usar (librería BSDA
):
z.test(x = iris$Sepal.Width, alternative = 'less', mu = 0, sigma.x = 0.4)
## ## One-sample z-Test## ## data: iris$Sepal.Width## z = 93.611, p-value = 1## alternative hypothesis: true mean is less than 0## 95 percent confidence interval:## NA 3.111054## sample estimates:## mean of x ## 3.057333
Para:
En R podemos usar (librería BSDA
):
z.test(x = iris$Sepal.Width, alternative = 'greater', mu = 0, sigma.x = 0.4)
## ## One-sample z-Test## ## data: iris$Sepal.Width## z = 93.611, p-value < 2.2e-16## alternative hypothesis: true mean is greater than 0## 95 percent confidence interval:## 3.003613 NA## sample estimates:## mean of x ## 3.057333
Cuando no conocemos la varianza poblacional pero si la muestral.
Tenemos: H0:μ≤μ0 ó H0:μ≥μ0 ó H0:μ=μ0
Estadístico de prueba:
t=¯X−μ0√s2/n
n es el individuos en la muestra. ¯X es la media de la muestra. s2 es la varianza muestral.
Distribución de referencia: t∼tn−1
Decisión:
Para:
En R podemos usar:
t.test(x = iris$Sepal.Width, alternative = 'two.sided', mu = 0)
## ## One Sample t-test## ## data: iris$Sepal.Width## t = 85.908, df = 149, p-value < 2.2e-16## alternative hypothesis: true mean is not equal to 0## 95 percent confidence interval:## 2.987010 3.127656## sample estimates:## mean of x ## 3.057333
Ejemplo:
Supongamos que realizo un muestreo de una población y capturé 30 individuos ( n=30 ). El evento de interés es que un individuo sea macho ( p=P(macho) ). Tenemos que H0:p≤0.5 y HA:p>0.5. Entonces:
Si observo X=5 machos, debo rechazar H0?
Si observo X=15 machos, debo rechazar H0?
Ejemplo:
Supongamos que realizo un muestreo de una población y capturé 30 individuos ( n=30 ). El evento de interés es que un individuo sea macho ( p=P(macho) ). Tenemos que H0:p≤0.5 y HA:p>0.5. Entonces:
Si observo X=5 machos, debo rechazar H0?
Si observo X=15 machos, debo rechazar H0?
Si observo X=25 machos, debo rechazar H0?
En R podemos usar:
binom.test(x = X, n = n, p = 0.5, alternative = 'two.sided')
## ## Exact binomial test## ## data: X and n## number of successes = 50, number of trials = 150, p-value = 5.448e-05## alternative hypothesis: true probability of success is not equal to 0.5## 95 percent confidence interval:## 0.2585564 0.4148430## sample estimates:## probability of success ## 0.3333333
En R podemos usar:
ks.test(x = rVar, y = 'pnorm', mean = 3, sd = 0.4, alternative = 'two.sided')
## ## Asymptotic one-sample Kolmogorov-Smirnov test## ## data: rVar## D = 0.89207, p-value < 2.2e-16## alternative hypothesis: two-sided
En este caso:
Tenemos: H0:δ≤δ0 ó H0:δ≥δ0 ó H0:δ=δ0
Donde: δ=μX−μY
Estadístico de prueba:
t=^δ−δ0√s2p/m+s2p/n
m es el número de individuos en la muestra 1 y n es el número de individuos en la muestra 2. ¯X es la media de la muestra. s2p es la varianza agrupada. ^δ=¯X−¯Y.
Distribución de referencia: t∼tm+n−2
Tenemos: H0:δ≤δ0 ó H0:δ≥δ0 ó H0:δ=δ0
Donde: δ=μX−μY
Estadístico de prueba:
t=^δ−δ0√s2p/m+s2p/n
m es el número de individuos en la muestra 1 y n es el número de individuos en la muestra 2. ¯X es la media de la muestra. s2p es la varianza agrupada. ^δ=¯X−¯Y.
Distribución de referencia: t∼tm+n−2
Decisión:
Y en R podemos usar la función:
t.test(x = setosaVal, y = virginicaVal, alternative = 'two.sided', mu = 0, paired = FALSE, var.equal = FALSE)
## ## Welch Two Sample t-test## ## data: setosaVal and virginicaVal## t = -49.986, df = 58.609, p-value < 2.2e-16## alternative hypothesis: true difference in means is not equal to 0## 95 percent confidence interval:## -4.253749 -3.926251## sample estimates:## mean of x mean of y ## 1.462 5.552
Y en R podemos usar la función:
t.test(x = setosaVal, y = virginicaVal, alternative = 'two.sided', mu = 0, paired = FALSE, var.equal = FALSE)
## ## Welch Two Sample t-test## ## data: setosaVal and virginicaVal## t = -49.986, df = 58.609, p-value < 2.2e-16## alternative hypothesis: true difference in means is not equal to 0## 95 percent confidence interval:## -4.253749 -3.926251## sample estimates:## mean of x mean of y ## 1.462 5.552
Y en R podemos usar la función:
t.test(x = setosaVal, y = virginicaVal, alternative = 'two.sided', mu = 0, paired = FALSE, var.equal = FALSE)
## ## Welch Two Sample t-test## ## data: setosaVal and virginicaVal## t = -49.986, df = 58.609, p-value < 2.2e-16## alternative hypothesis: true difference in means is not equal to 0## 95 percent confidence interval:## -4.253749 -3.926251## sample estimates:## mean of x mean of y ## 1.462 5.552
Tener cuidado al especificar los argumentos paired
y var.equal
.
Tenemos: H0:δ≤δ0 ó H0:δ≥δ0 ó H0:δ=δ0
Donde: δ=μX−μY
Estadístico de prueba:
t=^D−δ0√(s2x+s2y−2sxy)/n
n es el número de individuos en la muestra. s2x es la varianza muestral de grupo x y s2y del grupo y. ^D=¯X−¯Y.
Distribución de referencia: t∼tn−1
Decisión:
En R podemos usar la función:
t.test(x = BloodLead$Exposed, y = BloodLead$Control, alternative = 'two.sided', mu = 0, paired = TRUE)
## ## Paired t-test## ## data: BloodLead$Exposed and BloodLead$Control## t = 5.783, df = 32, p-value = 2.036e-06## alternative hypothesis: true mean difference is not equal to 0## 95 percent confidence interval:## 10.34469 21.59470## sample estimates:## mean difference ## 15.9697
En R podemos usar la función:
t.test(x = BloodLead$Exposed, y = BloodLead$Control, alternative = 'two.sided', mu = 0, paired = TRUE)
## ## Paired t-test## ## data: BloodLead$Exposed and BloodLead$Control## t = 5.783, df = 32, p-value = 2.036e-06## alternative hypothesis: true mean difference is not equal to 0## 95 percent confidence interval:## 10.34469 21.59470## sample estimates:## mean difference ## 15.9697
Utilizado cuando tenemos observaciones emparejadas y no tenemos información para asumir una distribución normal de la variable. Usando esta prueba podemos decidir si las distribuciones de los datos comparados son idénticas.
Usemos la base de datos:
library(MASS)head(immer)
## Loc Var Y1 Y2## 1 UF M 81.0 80.7## 2 UF S 105.4 82.3## 3 UF V 119.7 80.4## 4 UF T 109.7 87.2## 5 UF P 98.3 84.2## 6 W M 146.6 100.4
En R podemos usar:
wilcox.test(x = immer$Y1, y = immer$Y2, paired=TRUE)
## Warning in wilcox.test.default(x = immer$Y1, y = immer$Y2, paired = TRUE):## cannot compute exact p-value with ties
## ## Wilcoxon signed rank test with continuity correction## ## data: immer$Y1 and immer$Y2## V = 368.5, p-value = 0.005318## alternative hypothesis: true location shift is not equal to 0
Utilizado cuando tenemos observaciones independientes y no tenemos información para asumir una distribución normal de la variable. Usando esta prueba podemos decidir si las distribuciones de los datos comparados son idénticas.
Usemos la base de datos:
head(mtcars)
## mpg cyl disp hp drat wt qsec vs am gear carb## Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4## Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4## Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1## Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1## Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2## Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
En R podemos usar:
wilcox.test(mpg ~ am, data=mtcars, paired = FALSE)
## Warning in wilcox.test.default(x = DATA[[1L]], y = DATA[[2L]], ...): cannot## compute exact p-value with ties
## ## Wilcoxon rank sum test with continuity correction## ## data: mpg by am## W = 42, p-value = 0.001871## alternative hypothesis: true location shift is not equal to 0
Utilizado cuando tenemos observaciones independientes y no tenemos información para asumir una distribución normal de la variable. Usando esta prueba podemos decidir si las distribuciones de los datos comparados son idénticas.
Usemos la base de datos:
head(airquality)
## Ozone Solar.R Wind Temp Month Day## 1 41 190 7.4 67 5 1## 2 36 118 8.0 72 5 2## 3 12 149 12.6 74 5 3## 4 18 313 11.5 62 5 4## 5 NA NA 14.3 56 5 5## 6 28 NA 14.9 66 5 6
En R podemos usar:
kruskal.test(Ozone ~ Month, data = airquality)
## ## Kruskal-Wallis rank sum test## ## data: Ozone by Month## Kruskal-Wallis chi-squared = 29.267, df = 4, p-value = 6.901e-06
En R podemos usar:
chisq.test(x = myTab)
## ## Pearson's Chi-squared test with Yates' continuity correction## ## data: myTab## X-squared = 10.028, df = 1, p-value = 0.001542
La pregunta al usar un ANOVA es: ¿Son las medias poblacionales iguales una con otra?
Por lo tanto, la hipótesis nula es:
H0:μ1=μ2=...=μm
La hipótesis alternativa es:
HA:μ1≠μ2≠...≠μm
En palabras sencillas, un ANOVA compara la varianza dentro de los grupos con la varianza de todas las observaciones juntas para decidir si las medias poblacionales son iguales (es por esto que es llamado análisis de varianza).
Hagamos un ANOVA para la variable seleccionada:
myAnova = aov(Sepal.Length ~ Species, data = iris)summary(myAnova)
## Df Sum Sq Mean Sq F value Pr(>F) ## Species 2 63.21 31.606 119.3 <2e-16 ***## Residuals 147 38.96 0.265 ## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Un ANOVA nos dice si alguna media es diferente, pero no nos dice cuál.
Si queremos comparar medias por pares, podemos usar una prueba Tukey.
TukeyHSD(x = myAnova)
## Tukey multiple comparisons of means## 95% family-wise confidence level## ## Fit: aov(formula = Sepal.Length ~ Species, data = iris)## ## $Species## diff lwr upr p adj## versicolor-setosa 0.930 0.6862273 1.1737727 0## virginica-setosa 1.582 1.3382273 1.8257727 0## virginica-versicolor 0.652 0.4082273 0.8957727 0
library(car)leveneTest(y = myAnova)
## Levene's Test for Homogeneity of Variance (center = median)## Df F value Pr(>F) ## group 2 6.3527 0.002259 **## 147 ## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Keyboard shortcuts
↑, ←, Pg Up, k | Go to previous slide |
↓, →, Pg Dn, Space, j | Go to next slide |
Home | Go to first slide |
End | Go to last slide |
Number + Return | Go to specific slide |
b / m / f | Toggle blackout / mirrored / fullscreen mode |
c | Clone slideshow |
p | Toggle presenter mode |
t | Restart the presentation timer |
?, h | Toggle this help |
Esc | Back to slideshow |