Análisis de datos en R

Estadística

Juan Camilo Arboleda Rivera

Estadística

Población vs. muestra

¿Qué es ser normal?

¿Son tus datos normales, o les gusta madrugar?

hojas |> shapiro_test(longitud)

Outliers (Datos atípicos)

Prueba t de Student

  • Sirve para saber si dos medias son diferentes.

Supuestos para hacer una prueba t de Student

  1. Independencia de los datos.

  2. Si las muestras de cada grupo son pequeñas, estas deben satisfacer normalidad. Si son grandes (n > 30) el TLC asegura que se pueda usar la prueba t de Student.

  3. Homocedasticidad.

  4. No deberían haber outliers.

Prueba t de Student


¿Hay diferencias estadísticamente significativas entre las longitudes de las hojas con y sin herbivoría?

Primero verifiquemos los supuestos sobre los datos.

Test de Levene para homocedasticidad

Varianza: \[ \sigma^2 = \dfrac{\sum (x - \bar{x})^2}{N} \]

Test de Levene en R:

library(car)
leveneTest(y = hojas$longitud, group = hojas$Herbivoría)
Levene's Test for Homogeneity of Variance (center = median)
       Df F value   Pr(>F)   
group   2  4.7381 0.009454 **
      286                    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Prueba t de Student


t.test(herb_si, herb_no, var.equal = FALSE)


herb_si y herb_no deben ser vectores con las longitudes de las hojas con y sin herbivoría respectivamente.

¿Cómo generamos estos vectores?

El valor p

Puede interpretarse de varias formas:

  1. Probabilidad de que los resultados obtenidos se deban al azar.

  2. Probabilidad de obtener los resultados observados, asumiendo que la hipótesis nula es cierta.

  3. Probabilidad de rechazar la hipótesis nula siendo esta cierta.

Hipótesis nula e Hipótesis alternativa

ANOVA

ANalysis Of VAriance, Análisis de Varianza

Como una prueba t de Student pero cuando se comparan las medias entre más de dos grupos.

Supuestos para hacer una ANOVA

  1. Independencia de los datos.

  2. Si las muestras de cada grupo son pequeñas, estas deben satisfacer normalidad. Si son grandes (n > 30) el TLC asegura que se pueda usar la ANOVA.

  3. Homocedasticidad.

  4. No deberían haber outliers.

¿Existirán diferencias en el ancho promedio de las hojas dependiendo de quién las midió?


ANOVA en R

res_anova <- aov(ancho ~ Científico, data = hojas)

# Ver normalidad de los residuales
ggplot(hojas, aes(x = res_anova$residuals)) +
  geom_histogram() + xlab('Residuales')

Bibliografía

Ejercicio

  1. Descargar e importar a R el conjunto de datos Iris.

  2. Hacer histogramas y diagramas de caja para las variables cuantitativas.

  3. Hacer estos histogramas y diagramas de caja pero discriminando por especie.

  4. Hacer gráfico de dispersión de la longitud del pétalo vs. ancho del pétalo.

  5. Hacer gráfico de dispersión discriminando por especie.

  6. Hacer una ANOVA para ver si hay por lo menos una especie cuya longitud de los pétalos difiera significativamente de las demás.