En esta sección se resume los conceptos más importantes vistos en la parte práctica de cada clase.
Cargamos librerías a utilizar
library(ggplot2)
library(car)
library(Sleuth3)
library(MASS)
library(PairedData)
library(BSDA)
Bases de datos a utilizar:
head(ex0222)
## Gender Arith Word Parag Math AFQT
## 1 male 19 27 14 14 70.3
## 2 female 23 34 11 20 60.4
## 3 male 30 35 14 25 98.3
## 4 female 30 35 13 21 84.7
## 5 female 13 30 11 12 44.5
## 6 female 8 15 6 4 4.0
head(Cars93)
## Manufacturer Model Type Min.Price Price Max.Price MPG.city MPG.highway
## 1 Acura Integra Small 12.9 15.9 18.8 25 31
## 2 Acura Legend Midsize 29.2 33.9 38.7 18 25
## 3 Audi 90 Compact 25.9 29.1 32.3 20 26
## 4 Audi 100 Midsize 30.8 37.7 44.6 19 26
## 5 BMW 535i Midsize 23.7 30.0 36.2 22 30
## 6 Buick Century Midsize 14.2 15.7 17.3 22 31
## AirBags DriveTrain Cylinders EngineSize Horsepower RPM
## 1 None Front 4 1.8 140 6300
## 2 Driver & Passenger Front 6 3.2 200 5500
## 3 Driver only Front 6 2.8 172 5500
## 4 Driver & Passenger Front 6 2.8 172 5500
## 5 Driver only Rear 4 3.5 208 5700
## 6 Driver only Front 4 2.2 110 5200
## Rev.per.mile Man.trans.avail Fuel.tank.capacity Passengers Length Wheelbase
## 1 2890 Yes 13.2 5 177 102
## 2 2335 Yes 18.0 5 195 115
## 3 2280 Yes 16.9 5 180 102
## 4 2535 Yes 21.1 6 193 106
## 5 2545 Yes 21.1 4 186 109
## 6 2565 No 16.4 6 189 105
## Width Turn.circle Rear.seat.room Luggage.room Weight Origin Make
## 1 68 37 26.5 11 2705 non-USA Acura Integra
## 2 71 38 30.0 15 3560 non-USA Acura Legend
## 3 67 37 28.0 14 3375 non-USA Audi 90
## 4 70 37 31.0 17 3405 non-USA Audi 100
## 5 69 39 27.0 13 3640 non-USA BMW 535i
## 6 69 41 28.0 16 2880 USA Buick Century
data(Rugby)
head(Rugby)
## EXPERT.1 EXPERT.2 Actions
## 1 2.9 3.3 A1
## 3 1.0 1.8 A2
## 4 0.0 0.0 A3
## 5 9.5 8.9 A4
## 8 9.3 8.1 A5
## 11 2.6 8.0 A6
Si queremos saber que información contiene cada base de datos,
podemos ver la ayuda de ellas mediante ?ex0222
.
Asumamos que las variables EXPERT.1
y
EXPERT.2
tienen distribución normal. Queremos hacer una
prueba para saber si la media de los puntajes dados por el experto 1 es
mayor a la media de los puntajes dado por el experto 2.
Definimos la hipótesis nula y alternativa:
También puede ser representada:
Donde δ=μ1−μ2
Usamos la función t.test
para una prueba de dos muestras
pareadas:
t.test(x = Rugby$EXPERT.1, y = Rugby$EXPERT.2, paired = TRUE, mu = 0,
alternative = 'greater')
##
## Paired t-test
##
## data: Rugby$EXPERT.1 and Rugby$EXPERT.2
## t = -1.9523, df = 92, p-value = 0.973
## alternative hypothesis: true mean difference is greater than 0
## 95 percent confidence interval:
## -0.5573222 Inf
## sample estimates:
## mean difference
## -0.3010753
Esto nos lleva a fallar en rechazar H0, lo que quiere decir que la media de los puntajes del experto 1 es menor o igual a la media de los puntajes del experto 2.
Podemos observar la distribución de las variables
EXPERT.1
y EXPERT.2
:
hist(Rugby$EXPERT.1)
hist(Rugby$EXPERT.2)
Parece que su distribución no es normal, por lo que una prueba
t.test
no puede ser válida. Podemos usar una prueba
Wilcoxon Signed-Rank. Aquí:
Ejecutamos el test:
wilcox.test(x = Rugby$EXPERT.1, y = Rugby$EXPERT.2, paired = TRUE, alternative = 'greater')
##
## Wilcoxon signed rank test with continuity correction
##
## data: Rugby$EXPERT.1 and Rugby$EXPERT.2
## V = 1406.5, p-value = 0.9676
## alternative hypothesis: true location shift is greater than 0
Como vemos, el p−value es grande, por lo que nos lleva a fallar en rechazar la hipótesis nula.
Deseamos hacer una prueba para saber si las variables
Origen
y Man.trans.avail
de la base de datos
Cars93
están asociadas.
= table(Cars93$Origin, Cars93$Man.trans.avail)
myTable print(myTable)
##
## No Yes
## USA 26 22
## non-USA 6 39
Para esto, podemos aplicar una prueba Chi-cuadrado de Pearson:
chisq.test(x = myTable)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: myTable
## X-squared = 15.397, df = 1, p-value = 8.712e-05
Basado en el p−value, rechazamos la hipótesis nula y se concluye que las variables no son independientes, por lo que estan asociadas una con otra.
Queremos evaluar si existen diferencias en el precio de vehículos
(Price
) en base al tipo de tracción
(DriveTrain
) de la base de datos Cars93
.
Podemos hacer un ANOVA en este caso:
= aov(Price ~ DriveTrain, data = Cars93)
MyAnova summary(MyAnova)
## Df Sum Sq Mean Sq F value Pr(>F)
## DriveTrain 2 1722 861.1 11.29 4.2e-05 ***
## Residuals 90 6862 76.2
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Basado en este resultado, rechazamos la hipótesis nula y se concluye que algún tipo de tracción tiene precio medio diferente a los demás.
Si queremos comparar por pares:
TukeyHSD(x = MyAnova)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Price ~ DriveTrain, data = Cars93)
##
## $DriveTrain
## diff lwr upr p adj
## Front-4WD -0.0941791 -7.148353 6.959995 0.9994421
## Rear-4WD 11.3200000 2.931875 19.708125 0.0050886
## Rear-Front 11.4141791 5.624162 17.204197 0.0000278
Aquí podemos observar que existe una diferencia significativa entre
Rear
y 4WD
, y entre Rear
y
Front
.
Sin embargo, también tenemos que revisar los supuestos más importantes del ANOVA:
plot(MyAnova, 1)
plot(MyAnova, 2)
Basados en estos gráficos, al parece el supuesto de normalidad no se estaría cumpliendo.
Usando la base de datos Cars93
, encuentra si existe una
probabilidad de encontrar un carro con bolsa de aire en el asiento de
pasajero (Driver only
de la columna AirBags
)
mayor a 0.75.
En este caso:
Usamos una prueba binomial
= sum(Cars93$AirBags == 'Driver only')
X = nrow(Cars93)
n binom.test(x = X, n = n, p = 0.75, alternative = 'greater')
##
## Exact binomial test
##
## data: X and n
## number of successes = 43, number of trials = 93, p-value = 1
## alternative hypothesis: true probability of success is greater than 0.75
## 95 percent confidence interval:
## 0.3738333 1.0000000
## sample estimates:
## probability of success
## 0.4623656
El p−value es muy grande, por lo que fallamos en rechazar H0. Esto quiere decir que la probabilidad de encontrar un carro con bolsa de aire en el asiento de pasaje es menor o igual a 0.75.