O que é o boxplot?
A princípio para saber como interpretar um gráfico boxplot, precisamos saber o que é o boxplot. O boxplot ou diagrama de caixas é um método utilizado para a análise exploratória de variáveis quantitativas ou ordinais. Ele é uma ferramenta capaz de fornecer diversas medidas estatísticas como mínimo, primeiro quartil, segundo quartil (mediana), terceiro quartil, o máximo e os possíveis outliers (valores discrepantes).
A seguir um gráfico boxplot:
O que são os quartis?
Os quartis dividem um determinado conjunto de dados cujo os elementos são números reais em 4 grupos, e cada grupo inclui aproximadamente 25% (ou um quarto) de todos os valores incluídos no conjunto de dados .
Seja Q1 o primeiro quartil, Q2 a mediana e Q3 o terceiro quartil. Os quatro grupos de valores de dados são definidos pelos intervalos:
Grupo 1: Do limite inferior até Q1, também conhecido como 25º percentil, porque 25% dos valores do conjunto de dados estão abaixo dele.
Grupo 2: De Q1 a Q2. Q2 que é chamado de 50º percentil, porque 50% dos valores do conjunto de dados estão abaixo dele.
Grupo 3: De Q2 a Q3. Q3 que também é chamado de 75º percentil, porque 75% dos valores do conjunto de dados estão abaixo dele.
Grupo 4: De Q3 ao limite superior.
Além disso, esse método proporciona a localização visual da posição, dispersão, simetria, caudas e os valores extremos (outliers) dos dados.
Dispersão
A dispersão dos dados pode ser representada pelo intervalo interquartílico que é a diferença entre o terceiro quartil e o primeiro quartil (tamanho da caixa), ou ainda pela amplitude que é calculada da seguinte maneira:
Valor máximo – Valor mínimo
Embora a amplitude seja de fácil entendimento, o intervalo interquartílico é uma estatística mais robusta para medir variabilidade uma vez que não sofre influência de outliers.
Simetria
Um conjunto de dados que tem uma distribuição simétrica, terá a linha da mediana no centro do retângulo. Quando a linha da mediana está próxima ao primeiro quartil, os dados são assimétricos positivos e quando a posição da linha da mediana é próxima ao terceiro quartil, os dados são assimétricos negativos.
A mediana é a medida de tendência central mais indicada quando os dados possuem distribuição assimétrica, uma vez que a média aritmética é influenciada pelos valores extremos.
Caudas
As linhas que vão do retângulo até aos outliers podem fornecer o comprimento das caudas da distribuição.
Outliers
Já os outliers indicam possíveis valores discrepantes. No boxplot, as observações são consideradas outliers quando estão abaixo ou acima do limite de detecção de outliers.
Enfim, tudo isso é de suma importância para saber como interpretar um gráfico de boxplot!
A ICMC Júnior é especialista em análises estatísticas. Se gostou do artigo sobre o gráfico boxplot, compartilhe o link nas redes sociais!
Conheça melhor o nosso trabalho:
Autores: Amanda Vizoná e Luís Miguel