Los diagramas de caja y bigotes, conocidos como boxplots, son figuras que sirven para visualizar rápidamente algunos datos relevantes para la distribución de nuestros datos, como la mediana o la dispersión, y especialmente si podemos comparar entre grupos.
La podemos llamar con la función boxplot()
boxplot(chol$AGE)
Para hacer comparaciones por grupos, tenemos que especificarle a la función no solo la variable que estamos explorando visualmente, si no también en función de qué factor queremos que lo agrupe. Para ello tenemos que volver a utilizar el símbolo ~
para designar la variable por grupos. En el siguiente ejemplo vamos a generar un boxplot por cada tipo de fumador que tienen nuestros datos (variable SMOKE): no fumador, en pipa o en cigarro.
boxplot(chol$CHOL~chol$SMOKE)
También lo podemos ver respecto a los cuatro tipos sanguíneos:
boxplot(chol$CHOL~chol$BLOOD)
Vamos realizar también la misma comparación de los niveles de colesterol, pero esta vez entre pacientes vivos y muertos (variable MORT). pero antes, con table()
vamos a ver cuántos datos hay por cada una de las dos categorías:
table(chol$MORT)
##
## alive dead
## 176 24
boxplot(chol$CHOL~chol$MORT)
Dado que los datos apuntan a una ligera diferencia, hay una manera de visualizar si un test nos daría una diferencia estadísticamente significativa. El parámetro notch (nudo) que por defecto es FALSE, nos dibuja un estrangulamiento entre el rango intercuartil y la mediana. Si no hay solapamiento en esa zona estrangulada entre dos grupos, seguramente tengamos una significativa en un test.
boxplot(chol$CHOL~chol$MORT,notch=TRUE)
Hay que recordar que los mismos parámetros para personalizar los gráficos que hemos visto para las funciones principales funcionarán aquí también. Si por ejemplo queremos utilizar diferentes colores de relleno en función del grupo, podemos utilizar col, para especificar bien un solo color o bien un color diferente según el grupo.
boxplot(chol$CHOL~chol$MORT,notch=TRUE,col="red") #dos boxplots de color rojo.
boxplot(chol$CHOL~chol$MORT,notch=TRUE,col=chol$MORT) #uno de cada color)