En esta sección se resume los conceptos más importantes vistos en la parte práctica de cada clase.
Cargamos librerías a utilizar
library(ggplot2)
library(car)
library(Sleuth3)
library(MASS)
library(PairedData)
library(BSDA)
Bases de datos a utilizar:
head(ex0222)
## Gender Arith Word Parag Math AFQT
## 1 male 19 27 14 14 70.3
## 2 female 23 34 11 20 60.4
## 3 male 30 35 14 25 98.3
## 4 female 30 35 13 21 84.7
## 5 female 13 30 11 12 44.5
## 6 female 8 15 6 4 4.0
head(Cars93)
## Manufacturer Model Type Min.Price Price Max.Price MPG.city MPG.highway
## 1 Acura Integra Small 12.9 15.9 18.8 25 31
## 2 Acura Legend Midsize 29.2 33.9 38.7 18 25
## 3 Audi 90 Compact 25.9 29.1 32.3 20 26
## 4 Audi 100 Midsize 30.8 37.7 44.6 19 26
## 5 BMW 535i Midsize 23.7 30.0 36.2 22 30
## 6 Buick Century Midsize 14.2 15.7 17.3 22 31
## AirBags DriveTrain Cylinders EngineSize Horsepower RPM
## 1 None Front 4 1.8 140 6300
## 2 Driver & Passenger Front 6 3.2 200 5500
## 3 Driver only Front 6 2.8 172 5500
## 4 Driver & Passenger Front 6 2.8 172 5500
## 5 Driver only Rear 4 3.5 208 5700
## 6 Driver only Front 4 2.2 110 5200
## Rev.per.mile Man.trans.avail Fuel.tank.capacity Passengers Length Wheelbase
## 1 2890 Yes 13.2 5 177 102
## 2 2335 Yes 18.0 5 195 115
## 3 2280 Yes 16.9 5 180 102
## 4 2535 Yes 21.1 6 193 106
## 5 2545 Yes 21.1 4 186 109
## 6 2565 No 16.4 6 189 105
## Width Turn.circle Rear.seat.room Luggage.room Weight Origin Make
## 1 68 37 26.5 11 2705 non-USA Acura Integra
## 2 71 38 30.0 15 3560 non-USA Acura Legend
## 3 67 37 28.0 14 3375 non-USA Audi 90
## 4 70 37 31.0 17 3405 non-USA Audi 100
## 5 69 39 27.0 13 3640 non-USA BMW 535i
## 6 69 41 28.0 16 2880 USA Buick Century
data(Rugby)
head(Rugby)
## EXPERT.1 EXPERT.2 Actions
## 1 2.9 3.3 A1
## 3 1.0 1.8 A2
## 4 0.0 0.0 A3
## 5 9.5 8.9 A4
## 8 9.3 8.1 A5
## 11 2.6 8.0 A6
Si queremos saber que información contiene cada base de datos,
podemos ver la ayuda de ellas mediante ?ex0222
.
Asumamos que las variables EXPERT.1
y
EXPERT.2
tienen distribución normal. Queremos hacer una
prueba para saber si la media de los puntajes dados por el experto 1 es
mayor a la media de los puntajes dado por el experto 2.
Definimos la hipótesis nula y alternativa:
También puede ser representada:
Donde \(\delta = \mu_1 - \mu_2\)
Usamos la función t.test
para una prueba de dos muestras
pareadas:
t.test(x = Rugby$EXPERT.1, y = Rugby$EXPERT.2, paired = TRUE, mu = 0,
alternative = 'greater')
##
## Paired t-test
##
## data: Rugby$EXPERT.1 and Rugby$EXPERT.2
## t = -1.9523, df = 92, p-value = 0.973
## alternative hypothesis: true mean difference is greater than 0
## 95 percent confidence interval:
## -0.5573222 Inf
## sample estimates:
## mean difference
## -0.3010753
Esto nos lleva a fallar en rechazar \(H_0\), lo que quiere decir que la media de los puntajes del experto 1 es menor o igual a la media de los puntajes del experto 2.
Podemos observar la distribución de las variables
EXPERT.1
y EXPERT.2
:
hist(Rugby$EXPERT.1)
hist(Rugby$EXPERT.2)
Parece que su distribución no es normal, por lo que una prueba
t.test
no puede ser válida. Podemos usar una prueba
Wilcoxon Signed-Rank. Aquí:
Ejecutamos el test:
wilcox.test(x = Rugby$EXPERT.1, y = Rugby$EXPERT.2, paired = TRUE, alternative = 'greater')
##
## Wilcoxon signed rank test with continuity correction
##
## data: Rugby$EXPERT.1 and Rugby$EXPERT.2
## V = 1406.5, p-value = 0.9676
## alternative hypothesis: true location shift is greater than 0
Como vemos, el \(p-value\) es grande, por lo que nos lleva a fallar en rechazar la hipótesis nula.
Deseamos hacer una prueba para saber si las variables
Origen
y Man.trans.avail
de la base de datos
Cars93
están asociadas.
= table(Cars93$Origin, Cars93$Man.trans.avail)
myTable print(myTable)
##
## No Yes
## USA 26 22
## non-USA 6 39
Para esto, podemos aplicar una prueba Chi-cuadrado de Pearson:
chisq.test(x = myTable)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: myTable
## X-squared = 15.397, df = 1, p-value = 8.712e-05
Basado en el \(p-value\), rechazamos la hipótesis nula y se concluye que las variables no son independientes, por lo que estan asociadas una con otra.
Queremos evaluar si existen diferencias en el precio de vehículos
(Price
) en base al tipo de tracción
(DriveTrain
) de la base de datos Cars93
.
Podemos hacer un ANOVA en este caso:
= aov(Price ~ DriveTrain, data = Cars93)
MyAnova summary(MyAnova)
## Df Sum Sq Mean Sq F value Pr(>F)
## DriveTrain 2 1722 861.1 11.29 4.2e-05 ***
## Residuals 90 6862 76.2
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Basado en este resultado, rechazamos la hipótesis nula y se concluye que algún tipo de tracción tiene precio medio diferente a los demás.
Si queremos comparar por pares:
TukeyHSD(x = MyAnova)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Price ~ DriveTrain, data = Cars93)
##
## $DriveTrain
## diff lwr upr p adj
## Front-4WD -0.0941791 -7.148353 6.959995 0.9994421
## Rear-4WD 11.3200000 2.931875 19.708125 0.0050886
## Rear-Front 11.4141791 5.624162 17.204197 0.0000278
Aquí podemos observar que existe una diferencia significativa entre
Rear
y 4WD
, y entre Rear
y
Front
.
Sin embargo, también tenemos que revisar los supuestos más importantes del ANOVA:
plot(MyAnova, 1)
plot(MyAnova, 2)
Basados en estos gráficos, al parece el supuesto de normalidad no se estaría cumpliendo.
Usando la base de datos Cars93
, encuentra si existe una
probabilidad de encontrar un carro con bolsa de aire en el asiento de
pasajero (Driver only
de la columna AirBags
)
mayor a 0.75.
En este caso:
Usamos una prueba binomial
= sum(Cars93$AirBags == 'Driver only')
X = nrow(Cars93)
n binom.test(x = X, n = n, p = 0.75, alternative = 'greater')
##
## Exact binomial test
##
## data: X and n
## number of successes = 43, number of trials = 93, p-value = 1
## alternative hypothesis: true probability of success is greater than 0.75
## 95 percent confidence interval:
## 0.3738333 1.0000000
## sample estimates:
## probability of success
## 0.4623656
El \(p-value\) es muy grande, por lo que fallamos en rechazar \(H_0\). Esto quiere decir que la probabilidad de encontrar un carro con bolsa de aire en el asiento de pasaje es menor o igual a 0.75.