+ - 0:00:00
Notes for current slide
Notes for next slide

AlwaysR, Módulo III: Estadística en R

Clase 1: Introducción. Estadística descriptiva. Distribuciones de probabilidad.

Dr. Giancarlo M. Correa

1 / 46

Introducción

2 / 46

Presentaciones



  • Mi nombre es:

  • Mi nacionalidad es y/o resido en:

  • Me dedico a:

  • Mi área de estudio es:

3 / 46

Silabo

Revisar silabo en Cousteau Consultant Group.

También puede ser encontrado en el Google Drive.

4 / 46

Metodología

  • Preguntas: En cualquier momento. Dejar preguntas en el chat o activar micrófono.
5 / 46

Metodología

  • Preguntas: En cualquier momento. Dejar preguntas en el chat o activar micrófono.

  • Material: Presentaciones, códigos y videos en Google Drive. También puede ser encontrado en mi sitio web.

5 / 46

Metodología

  • Preguntas: En cualquier momento. Dejar preguntas en el chat o activar micrófono.

  • Material: Presentaciones, códigos y videos en Google Drive. También puede ser encontrado en mi sitio web.

  • Certificado: De asistencia ó aprobación (completar todos los quizzes al término de la semana).

5 / 46

Metodología

  • Preguntas: En cualquier momento. Dejar preguntas en el chat o activar micrófono.

  • Material: Presentaciones, códigos y videos en Google Drive. También puede ser encontrado en mi sitio web.

  • Certificado: De asistencia ó aprobación (completar todos los quizzes al término de la semana).

  • Horas de oficina: Por definir

5 / 46

Metodología

  • Preguntas: En cualquier momento. Dejar preguntas en el chat o activar micrófono.

  • Material: Presentaciones, códigos y videos en Google Drive. También puede ser encontrado en mi sitio web.

  • Certificado: De asistencia ó aprobación (completar todos los quizzes al término de la semana).

  • Horas de oficina: Por definir

  • Contacto: Escribir a cursos@cousteau-group.com ó gcorrea@uw.edu

5 / 46

Estadística descriptiva

6 / 46

Variable

Es un atributo que describe un individuo, lugar, o cosa. Este atributo puede variar entre individuos. Ejemplo: altura total, temperatura, edad, estadio sexual.

7 / 46

Variable

Es un atributo que describe un individuo, lugar, o cosa. Este atributo puede variar entre individuos. Ejemplo: altura total, temperatura, edad, estadio sexual.

  • Cuantitativa: Refleja magnitud. Representa una medida y es numérica.
  • Discreta: Valores que toman son contables y tienen un número finito de posibilidades.

  • Continua: Valores no son contables y tiene un infinito número de posibilidades.

7 / 46

Variable

Es un atributo que describe un individuo, lugar, o cosa. Este atributo puede variar entre individuos. Ejemplo: altura total, temperatura, edad, estadio sexual.

  • Cuantitativa: Refleja magnitud. Representa una medida y es numérica.
  • Discreta: Valores que toman son contables y tienen un número finito de posibilidades.

  • Continua: Valores no son contables y tiene un infinito número de posibilidades.

  • Cualitativa: No son numericas, valores son categorías.
  • Nominal: No existe un orden para los niveles.

  • Ordinal: Existe un orden para los niveles.

7 / 46

Población vs Muestra

8 / 46

Población vs Muestra

8 / 46

Muestra

Tomamos datos de la altura ( m ) de 20 árboles ( n=20 ) de un bosque que se quiere investigar y lo guardamos en un vector llamado altura:

print(altura)
## [1] 94.40 97.70 115.59 100.71 101.29 117.15 104.61 87.35 93.13 95.54
## [11] 112.24 103.60 104.01 101.11 94.44 117.87 104.98 80.33 107.01 95.27

--

También tomamos datos del número de raíces principales de cada árbol:

print(raices)
## [1] 1 3 2 4 4 0 2 4 2 2 5 2 3 2 0 4 1 0 1 5
9 / 46

Media

Calculada como:

x¯=1ni=1nxi=x1+x2++xnn

10 / 46

Media

Calculada como:

x¯=1ni=1nxi=x1+x2++xnn

En R podemos usar:

mean(x = altura)
## [1] 101.4165

Unidades: m

10 / 46

Media

Calculada como:

x¯=1ni=1nxi=x1+x2++xnn

En R podemos usar:

mean(x = altura)
## [1] 101.4165

Unidades: m

Algo muy imporante es ver la ayuda de una función cuando no sepamos como utilizarla, por ejemplo: ?mean

10 / 46

Mediana

Valor encontrado en el medio de todo el conjunto de valores.

11 / 46

Mediana

Valor encontrado en el medio de todo el conjunto de valores.

En R podemos usar:

median(x = altura)
## [1] 101.2

Unidades: m

11 / 46

Moda

El valor más frecuente en los datos.

12 / 46

Moda

El valor más frecuente en los datos.

R no tiene una función por defecto para calcular la moda, pero podemos hacer una:

getmode <- function(x) {
uniqv <- unique(x)
uniqv[which.max(tabulate(match(x, uniqv)))]
}
12 / 46

Moda

El valor más frecuente en los datos.

R no tiene una función por defecto para calcular la moda, pero podemos hacer una:

getmode <- function(x) {
uniqv <- unique(x)
uniqv[which.max(tabulate(match(x, uniqv)))]
}

Luego la usamos:

getmode(x = raices)
## [1] 2
12 / 46

Moda

El valor más frecuente en los datos.

R no tiene una función por defecto para calcular la moda, pero podemos hacer una:

getmode <- function(x) {
uniqv <- unique(x)
uniqv[which.max(tabulate(match(x, uniqv)))]
}

Luego la usamos:

getmode(x = raices)
## [1] 2

O utilizar:

DescTools::Mode(x = altura)
12 / 46

Varianza

Calculada como (para la muestra):

s2=i=1n(xix¯)2n1

13 / 46

Varianza

Calculada como (para la muestra):

s2=i=1n(xix¯)2n1

En R podemos usar:

var(x = altura)
## [1] 94.62027

Si se desea calcular la varianza poblacional, se multiplica por (n1)/n.

Unidades: m2.

13 / 46

Desviación estándar

Calculada como (para la muestra):

s=s2

14 / 46

Desviación estándar

Calculada como (para la muestra):

s=s2

En R podemos usar:

sd(x = altura)
## [1] 9.727295

Unidades: m.

14 / 46

Desviación estándar

Calculada como (para la muestra):

s=s2

En R podemos usar:

sd(x = altura)
## [1] 9.727295

Unidades: m.

Recordemos que sd(x = altura)^2 es igual a var(x = altura).

14 / 46

Coeficiente de variación

Calculada como:

CV=s/x¯

15 / 46

Coeficiente de variación

Calculada como:

CV=s/x¯

En R podemos usar:

sd(altura)/mean(altura)
## [1] 0.09591432
15 / 46

Mínimo y máximo

Simplemente se calcula es mínimo y máximo valor observado en la muestra.

16 / 46

Mínimo y máximo

Simplemente se calcula es mínimo y máximo valor observado en la muestra.

En R podemos usar (mínimo):

min(x = altura)
## [1] 80.33

Unidades: m.

16 / 46

Mínimo y máximo

Simplemente se calcula es mínimo y máximo valor observado en la muestra.

En R podemos usar (mínimo):

min(x = altura)
## [1] 80.33

Unidades: m.

En R podemos usar (máximo):

max(x = altura)
## [1] 117.87

Unidades: m.

16 / 46

Rango

Simplemente se calcula es mínimo y máximo valor observado en la muestra.

17 / 46

Rango

Simplemente se calcula es mínimo y máximo valor observado en la muestra.

En R podemos usar:

range(x = altura)
## [1] 80.33 117.87

Unidades: m.

17 / 46

Cuartiles y percentiles

  • Cuartiles: Valores que dividen a los datos en cuatro partes. E.g.: primer (25%), segundo (50%) y tercer (75%) cuartil.

  • Percentil: Valores que dividen a los datos en cien partes. E.g.: Percentil 1, 2, etc.

18 / 46

Cuartiles y percentiles

  • Cuartiles: Valores que dividen a los datos en cuatro partes. E.g.: primer (25%), segundo (50%) y tercer (75%) cuartil.

  • Percentil: Valores que dividen a los datos en cien partes. E.g.: Percentil 1, 2, etc.

En R podemos usar (para cuartiles y percentiles) (Unidades: m):

quantile(x = altura, probs = 0.25)
## 25%
## 95.0625

Aquí, probs = 0.25 especifica el primer cuartil o el percentil 25.

18 / 46

Cuartiles y percentiles

  • Cuartiles: Valores que dividen a los datos en cuatro partes. E.g.: primer (25%), segundo (50%) y tercer (75%) cuartil.

  • Percentil: Valores que dividen a los datos en cien partes. E.g.: Percentil 1, 2, etc.

En R podemos usar (para cuartiles y percentiles) (Unidades: m):

quantile(x = altura, probs = 0.25)
## 25%
## 95.0625

Aquí, probs = 0.25 especifica el primer cuartil o el percentil 25.

quantile(x = altura, probs = 0.6)
## 60%
## 103.764

Aquí, probs = 0.6 especifica el percentil 60.

18 / 46

Rango interquartil

Diferencia entre el tercer y primer cuartil.

19 / 46

Rango interquartil

Diferencia entre el tercer y primer cuartil.

En R podemos usar:

IQR(x = altura)
## [1] 10.425
19 / 46

Datos faltantes

En el caso que tengamos datos faltantes, la variable puede ser:

## [1] 94.40 97.70 NA 100.71 101.29 117.15 NA 87.35 93.13 95.54
## [11] 112.24 103.60 104.01 101.11 94.44 117.87 104.98 80.33 107.01 95.27

--

Si usamos las funciones anteriores tal cual, vemos que:

mean(altura)
## [1] NA
20 / 46

Datos faltantes

En el caso que tengamos datos faltantes, la variable puede ser:

## [1] 94.40 97.70 NA 100.71 101.29 117.15 NA 87.35 93.13 95.54
## [11] 112.24 103.60 104.01 101.11 94.44 117.87 104.98 80.33 107.01 95.27

--

Si usamos las funciones anteriores tal cual, vemos que:

mean(altura)
## [1] NA

En estos casos, tenemos que agregar el argumento na.rm = TRUE a las funciones exploradas:

mean(altura, na.rm = TRUE)
## [1] 100.4517
20 / 46

Resumen de un conjunto de datos

Podemos obtener estadísticos descriptivos rápidamente de todas las variables de una base de datos, por ejemplo:

summary(airquality)
## Ozone Solar.R Wind Temp
## Min. : 1.00 Min. : 7.0 Min. : 1.700 Min. :56.00
## 1st Qu.: 18.00 1st Qu.:115.8 1st Qu.: 7.400 1st Qu.:72.00
## Median : 31.50 Median :205.0 Median : 9.700 Median :79.00
## Mean : 42.13 Mean :185.9 Mean : 9.958 Mean :77.88
## 3rd Qu.: 63.25 3rd Qu.:258.8 3rd Qu.:11.500 3rd Qu.:85.00
## Max. :168.00 Max. :334.0 Max. :20.700 Max. :97.00
## NA's :37 NA's :7
## Month Day
## Min. :5.000 Min. : 1.0
## 1st Qu.:6.000 1st Qu.: 8.0
## Median :7.000 Median :16.0
## Mean :6.993 Mean :15.8
## 3rd Qu.:8.000 3rd Qu.:23.0
## Max. :9.000 Max. :31.0
##
21 / 46

Figuras

boxplot(x = altura, ylab = 'Altura (m)')

22 / 46

Figuras

hist(x = altura, xlab = 'Altura (m)', ylab = 'Frecuencia', main = '')

23 / 46

Figuras

hist(x = altura, xlab = 'Altura (m)', ylab = 'Frecuencia', main = '')
abline(v = mean(altura), col = 'red', lty = 2)

24 / 46

Figuras

hist(x = altura, xlab = 'Altura (m)', ylab = 'Frecuencia', main = '')
abline(v = mean(altura), col = 'red', lty = 2)
abline(v = median(altura), col = 'blue', lty = 2)

25 / 46

Figuras

plot(density(altura))

26 / 46

Figuras

Los histogramas y boxplots nos dan información de la dispersión de los datos:

27 / 46

Distribuciones de probabilidad

28 / 46

Distribución normal

Variable continua. Función de densidad:

f(x)=1σ2πe(xμ)2/2σ2<x<

donde μ (media) y σ (desviación estándar) son los parámetros de la función. Representada como: N(μ,σ2).

29 / 46

Distribución normal

Variable continua. Función de densidad:

f(x)=1σ2πe(xμ)2/2σ2<x<

donde μ (media) y σ (desviación estándar) son los parámetros de la función. Representada como: N(μ,σ2).

Media E(X)=μ

Varianza Var(X)=σ2

29 / 46

Distribución normal

Podemos generar 100 números aleatorios con distribución normal, con determinada media y desviación estándar:

rnorm(n = 100, mean = 20, sd = 3)

30 / 46

Distribución normal

Distribución normal estándar ( μ=0 y σ2=1 ):

31 / 46

Distribución normal

Probabilidad acumulada:

32 / 46

Distribución normal

Probabilidad acumulada:

Podemos usar la función:

pnorm(q = -2, mean = 0, sd = 1)
## [1] 0.02275013
32 / 46

Distribución normal

Probabilidad a un valor de variable dado:

33 / 46

Distribución normal

Probabilidad a un valor de variable dado:

Podemos usar la función:

dnorm(x = -2, mean = 0, sd = 1)
## [1] 0.05399097
33 / 46

Distribución normal

Valor de variable dado una probabilidad acumulada:

34 / 46

Distribución normal

Valor de variable dado una probabilidad acumulada:

Podemos usar la función:

qnorm(p = 0.0227, mean = 0, sd = 1)
## [1] -2.000929
34 / 46

Distribución normal

Ejemplo 1:

¿Cúal es la probabilidad que la altura de un árbol sea menor a 90 m, dado que la media de la muestra es 100 y desviación estándar de 10?

35 / 46

Distribución normal

Ejemplo 1:

¿Cúal es la probabilidad que la altura de un árbol sea menor a 90 m, dado que la media de la muestra es 100 y desviación estándar de 10?

pnorm(q = 90, mean = 100, sd = 10)
## [1] 0.1586553
35 / 46

Distribución normal

Ejemplo 1:

¿Cúal es la probabilidad que la altura de un árbol sea menor a 90 m, dado que la media de la muestra es 100 y desviación estándar de 10?

pnorm(q = 90, mean = 100, sd = 10)
## [1] 0.1586553

Ejemplo 2:

¿Cúal es la probabilidad que la altura de un árbol sea mayor a 115 m, dado que la media de la muestra es 100 y desviación estándar de 10?

35 / 46

Distribución normal

Ejemplo 1:

¿Cúal es la probabilidad que la altura de un árbol sea menor a 90 m, dado que la media de la muestra es 100 y desviación estándar de 10?

pnorm(q = 90, mean = 100, sd = 10)
## [1] 0.1586553

Ejemplo 2:

¿Cúal es la probabilidad que la altura de un árbol sea mayor a 115 m, dado que la media de la muestra es 100 y desviación estándar de 10?

1 - pnorm(q = 115, mean = 100, sd = 10)
## [1] 0.0668072
35 / 46

Distribución lognormal

Variable continua. Función de densidad:

f(x)=1xσ2πe(ln(x)μ)2/2σ2x(0,+)

donde μ (media) y σ (desviación estándar) son los parámetros de la función. Representada como: LnN(μ,σ2).

36 / 46

Distribución lognormal

Variable continua. Función de densidad:

f(x)=1xσ2πe(ln(x)μ)2/2σ2x(0,+)

donde μ (media) y σ (desviación estándar) son los parámetros de la función. Representada como: LnN(μ,σ2).

Media E(X)=eμ+σ2/2

Varianza Var(X)=e2μ+σ2(eσ21)

36 / 46

Distribución lognormal

Podemos generar 1000 números aleatorios con distribución lognormal, con determinada media y desviación estándar:

rlnorm(n = 1000, mean = 2, sd = 1)

37 / 46

Distribución lognormal

Similar al caso de la distribución normal, podemos calcular:

38 / 46

Distribución lognormal

Similar al caso de la distribución normal, podemos calcular:

Probabilidad acumulada:

plnorm(q = 20, mean = 2, sd = 1)
## [1] 0.8403099
38 / 46

Distribución lognormal

Similar al caso de la distribución normal, podemos calcular:

Probabilidad acumulada:

plnorm(q = 20, mean = 2, sd = 1)
## [1] 0.8403099

Probabilidad a un valor de variable dado:

dlnorm(x = 20, mean = 2, sd = 1)
## [1] 0.01215017
38 / 46

Distribución lognormal

Similar al caso de la distribución normal, podemos calcular:

Probabilidad acumulada:

plnorm(q = 20, mean = 2, sd = 1)
## [1] 0.8403099

Probabilidad a un valor de variable dado:

dlnorm(x = 20, mean = 2, sd = 1)
## [1] 0.01215017

Valor de variable dado una probabilidad acumulada:

qlnorm(p = 0.84, mean = 2, sd = 1)
## [1] 19.97453
38 / 46

Distribución poisson

Variable discreta. Función de densidad:

P(X=x)=eλλxx!x=0,1,2,...

donde λ es el parámetro principal y es mayor a cero. Representada como: Poi(λ).

39 / 46

Distribución poisson

Variable discreta. Función de densidad:

P(X=x)=eλλxx!x=0,1,2,...

donde λ es el parámetro principal y es mayor a cero. Representada como: Poi(λ).

Media E(X)=λ

Varianza Var(X)=λ

39 / 46

Distribución poisson

Podemos generar 100 números aleatorios con distribución poisson, con determinada parámetro λ:

rpois(n = 100, lambda = 10)

40 / 46

Distribución poisson

Similar al caso de la distribución normal, podemos calcular:

41 / 46

Distribución poisson

Similar al caso de la distribución normal, podemos calcular:

Probabilidad acumulada:

ppois(q = 8, lambda = 10)
## [1] 0.3328197
41 / 46

Distribución poisson

Similar al caso de la distribución normal, podemos calcular:

Probabilidad acumulada:

ppois(q = 8, lambda = 10)
## [1] 0.3328197

Probabilidad a un valor de variable dado:

dpois(x = 8, lambda = 10)
## [1] 0.112599
41 / 46

Distribución poisson

Similar al caso de la distribución normal, podemos calcular:

Probabilidad acumulada:

ppois(q = 8, lambda = 10)
## [1] 0.3328197

Probabilidad a un valor de variable dado:

dpois(x = 8, lambda = 10)
## [1] 0.112599

Valor de variable dado una probabilidad acumulada:

qpois(p = 0.33, lambda = 10)
## [1] 8
41 / 46

Distribución binomial

Variable discreta. Función de probabilidad:

P(X=x)=(nx)px(1p)nxx=0,1,2,...,n

donde n representa el número de intentos y p es la probabilidad de ocurrencia de un evento de interés. Representada como: Bin(n,p).

42 / 46

Distribución binomial

Variable discreta. Función de probabilidad:

P(X=x)=(nx)px(1p)nxx=0,1,2,...,n

donde n representa el número de intentos y p es la probabilidad de ocurrencia de un evento de interés. Representada como: Bin(n,p).

Media E(X)=np

Varianza Var(X)=np(1p)

42 / 46

Distribución binomial

Podemos generar 100 experimentos (n=100), cada uno con 20 intentos (size=20), donde cada intento tiene probabilidad de éxito p=0.5 para un evento de interés:

rbinom(n = 100, size = 20, prob = 0.5)

El número de veces donde el evento de interés ha sido exitoso para los 100 experimentos

43 / 46

Distribución binomial

Similar al caso de la distribución normal, podemos calcular:

44 / 46

Distribución binomial

Similar al caso de la distribución normal, podemos calcular:

Probabilidad acumulada:

pbinom(q = 10, size = 20, prob = 0.5)
## [1] 0.5880985
44 / 46

Distribución binomial

Similar al caso de la distribución normal, podemos calcular:

Probabilidad acumulada:

pbinom(q = 10, size = 20, prob = 0.5)
## [1] 0.5880985

Probabilidad a un valor de variable dado:

dbinom(x = 10, size = 20, prob = 0.5)
## [1] 0.1761971
44 / 46

Distribución binomial

Similar al caso de la distribución normal, podemos calcular:

Probabilidad acumulada:

pbinom(q = 10, size = 20, prob = 0.5)
## [1] 0.5880985

Probabilidad a un valor de variable dado:

dbinom(x = 10, size = 20, prob = 0.5)
## [1] 0.1761971

Valor de variable dado una probabilidad acumulada:

qbinom(p = 0.588, size = 20, prob = 0.5)
## [1] 10
44 / 46

Distribución binomial

Ejemplo 1:

Se sabe que la proporción de hembras en una muestra es de 0.6. En una muestra se tienen 80 individuos. ¿Cuál es la probabilidad de encontrar menos de 40 hembras?

45 / 46

Distribución binomial

Ejemplo 1:

Se sabe que la proporción de hembras en una muestra es de 0.6. En una muestra se tienen 80 individuos. ¿Cuál es la probabilidad de encontrar menos de 40 hembras?

pbinom(q = 40, size = 80, prob = 0.6)
## [1] 0.04449706
45 / 46

Gracias!

Contacto: cursos@cousteau-group.com

46 / 46

Introducción

2 / 46
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow