AlwaysR, Módulo III: Estadística en R.

Lab 02

Giancarlo M. Correa


En esta sección se resume los conceptos más importantes vistos en la parte práctica de cada clase.

Cargamos librerías a utilizar

library(ggplot2)
library(car)
library(Sleuth3)
library(MASS)
library(PairedData)
library(BSDA)

Bases de datos a utilizar:

head(ex0222)
##   Gender Arith Word Parag Math AFQT
## 1   male    19   27    14   14 70.3
## 2 female    23   34    11   20 60.4
## 3   male    30   35    14   25 98.3
## 4 female    30   35    13   21 84.7
## 5 female    13   30    11   12 44.5
## 6 female     8   15     6    4  4.0
head(Cars93)
##   Manufacturer   Model    Type Min.Price Price Max.Price MPG.city MPG.highway
## 1        Acura Integra   Small      12.9  15.9      18.8       25          31
## 2        Acura  Legend Midsize      29.2  33.9      38.7       18          25
## 3         Audi      90 Compact      25.9  29.1      32.3       20          26
## 4         Audi     100 Midsize      30.8  37.7      44.6       19          26
## 5          BMW    535i Midsize      23.7  30.0      36.2       22          30
## 6        Buick Century Midsize      14.2  15.7      17.3       22          31
##              AirBags DriveTrain Cylinders EngineSize Horsepower  RPM
## 1               None      Front         4        1.8        140 6300
## 2 Driver & Passenger      Front         6        3.2        200 5500
## 3        Driver only      Front         6        2.8        172 5500
## 4 Driver & Passenger      Front         6        2.8        172 5500
## 5        Driver only       Rear         4        3.5        208 5700
## 6        Driver only      Front         4        2.2        110 5200
##   Rev.per.mile Man.trans.avail Fuel.tank.capacity Passengers Length Wheelbase
## 1         2890             Yes               13.2          5    177       102
## 2         2335             Yes               18.0          5    195       115
## 3         2280             Yes               16.9          5    180       102
## 4         2535             Yes               21.1          6    193       106
## 5         2545             Yes               21.1          4    186       109
## 6         2565              No               16.4          6    189       105
##   Width Turn.circle Rear.seat.room Luggage.room Weight  Origin          Make
## 1    68          37           26.5           11   2705 non-USA Acura Integra
## 2    71          38           30.0           15   3560 non-USA  Acura Legend
## 3    67          37           28.0           14   3375 non-USA       Audi 90
## 4    70          37           31.0           17   3405 non-USA      Audi 100
## 5    69          39           27.0           13   3640 non-USA      BMW 535i
## 6    69          41           28.0           16   2880     USA Buick Century
data(Rugby)
head(Rugby)
##    EXPERT.1 EXPERT.2 Actions
## 1       2.9      3.3      A1
## 3       1.0      1.8      A2
## 4       0.0      0.0      A3
## 5       9.5      8.9      A4
## 8       9.3      8.1      A5
## 11      2.6      8.0      A6

Si queremos saber que información contiene cada base de datos, podemos ver la ayuda de ellas mediante ?ex0222.

Caso 1

Asumamos que las variables EXPERT.1 y EXPERT.2 tienen distribución normal. Queremos hacer una prueba para saber si la media de los puntajes dados por el experto 1 es mayor a la media de los puntajes dado por el experto 2.

Definimos la hipótesis nula y alternativa:

  • \(H_0: \mu_1 \leq \mu_2\)
  • \(H_A: \mu_1 > \mu_2\)

También puede ser representada:

  • \(H_0: \delta \leq 0\)
  • \(H_A: \delta > 0\)

Donde \(\delta = \mu_1 - \mu_2\)

Usamos la función t.test para una prueba de dos muestras pareadas:

t.test(x = Rugby$EXPERT.1, y = Rugby$EXPERT.2, paired = TRUE, mu = 0,
       alternative = 'greater')
## 
##  Paired t-test
## 
## data:  Rugby$EXPERT.1 and Rugby$EXPERT.2
## t = -1.9523, df = 92, p-value = 0.973
## alternative hypothesis: true mean difference is greater than 0
## 95 percent confidence interval:
##  -0.5573222        Inf
## sample estimates:
## mean difference 
##      -0.3010753

Esto nos lleva a fallar en rechazar \(H_0\), lo que quiere decir que la media de los puntajes del experto 1 es menor o igual a la media de los puntajes del experto 2.

Podemos observar la distribución de las variables EXPERT.1 y EXPERT.2:

hist(Rugby$EXPERT.1)

hist(Rugby$EXPERT.2)

Parece que su distribución no es normal, por lo que una prueba t.test no puede ser válida. Podemos usar una prueba Wilcoxon Signed-Rank. Aquí:

  • \(H_0\): la distribución 1 es menor o igual a la distribución 2
  • \(H_A\): la distribución 1 es mayor a la distribución 2

Ejecutamos el test:

wilcox.test(x = Rugby$EXPERT.1, y = Rugby$EXPERT.2, paired = TRUE, alternative = 'greater')
## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  Rugby$EXPERT.1 and Rugby$EXPERT.2
## V = 1406.5, p-value = 0.9676
## alternative hypothesis: true location shift is greater than 0

Como vemos, el \(p-value\) es grande, por lo que nos lleva a fallar en rechazar la hipótesis nula.

Caso 2

Deseamos hacer una prueba para saber si las variables Origen y Man.trans.avail de la base de datos Cars93 están asociadas.

myTable = table(Cars93$Origin, Cars93$Man.trans.avail)
print(myTable)
##          
##           No Yes
##   USA     26  22
##   non-USA  6  39

Para esto, podemos aplicar una prueba Chi-cuadrado de Pearson:

  • \(H_0\): las variables son independientes entre ellas
  • \(H_A\): las variables no son independientes entre ellas
chisq.test(x = myTable)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  myTable
## X-squared = 15.397, df = 1, p-value = 8.712e-05

Basado en el \(p-value\), rechazamos la hipótesis nula y se concluye que las variables no son independientes, por lo que estan asociadas una con otra.

Caso 3

Queremos evaluar si existen diferencias en el precio de vehículos (Price) en base al tipo de tracción (DriveTrain) de la base de datos Cars93.

Podemos hacer un ANOVA en este caso:

  • \(H_0\): el precio medio de cada tipo de tracción es igual
  • \(H_A\): existe algún tipo de tracción con precio medio diferente a los demás
MyAnova = aov(Price ~ DriveTrain, data = Cars93)
summary(MyAnova)
##             Df Sum Sq Mean Sq F value  Pr(>F)    
## DriveTrain   2   1722   861.1   11.29 4.2e-05 ***
## Residuals   90   6862    76.2                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Basado en este resultado, rechazamos la hipótesis nula y se concluye que algún tipo de tracción tiene precio medio diferente a los demás.

Si queremos comparar por pares:

TukeyHSD(x = MyAnova)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Price ~ DriveTrain, data = Cars93)
## 
## $DriveTrain
##                  diff       lwr       upr     p adj
## Front-4WD  -0.0941791 -7.148353  6.959995 0.9994421
## Rear-4WD   11.3200000  2.931875 19.708125 0.0050886
## Rear-Front 11.4141791  5.624162 17.204197 0.0000278

Aquí podemos observar que existe una diferencia significativa entre Rear y 4WD, y entre Rear y Front.

Sin embargo, también tenemos que revisar los supuestos más importantes del ANOVA:

plot(MyAnova, 1)

plot(MyAnova, 2)

Basados en estos gráficos, al parece el supuesto de normalidad no se estaría cumpliendo.

Caso 4

Usando la base de datos Cars93, encuentra si existe una probabilidad de encontrar un carro con bolsa de aire en el asiento de pasajero (Driver only de la columna AirBags) mayor a 0.75.

En este caso:

  • \(H_0: p \leq 0.75\)
  • \(H_A: p>0.75\)

Usamos una prueba binomial

X = sum(Cars93$AirBags == 'Driver only')
n = nrow(Cars93)
binom.test(x = X, n = n, p = 0.75, alternative = 'greater')
## 
##  Exact binomial test
## 
## data:  X and n
## number of successes = 43, number of trials = 93, p-value = 1
## alternative hypothesis: true probability of success is greater than 0.75
## 95 percent confidence interval:
##  0.3738333 1.0000000
## sample estimates:
## probability of success 
##              0.4623656

El \(p-value\) es muy grande, por lo que fallamos en rechazar \(H_0\). Esto quiere decir que la probabilidad de encontrar un carro con bolsa de aire en el asiento de pasaje es menor o igual a 0.75.