Histogramas e Lotes de Densidade em Python

É sempre uma boa idéia examinar nossos dados antes de começarmos a plotar. Podemos ler os dados em um dataframe pandas e exibir as primeiras 10 linhas:

import pandas as pd# Read in data and examine first 10 rows
flights = pd.read_csv('data/formatted_flights.csv')
flights.head(10)

Os atrasos na chegada do vôo são em minutos e os valores negativos significam que o vôo foi antecipado (acontece que os vôos geralmente tendem a chegar mais cedo, mas nunca quando estamos neles!) Existem mais de 300.000 voos com um atraso mínimo de -60 minutos e um atraso máximo de 120 minutos. A outra coluna no quadro de dados é o nome da companhia aérea que podemos usar para comparações.

Uma ótima maneira de começar a explorar uma única variável é com o histograma. Um histograma divide a variável em caixas, conta os pontos de dados em cada caixa, e mostra as caixas no eixo x e as contagens no eixo y. No nosso caso, as caixas serão um intervalo de tempo que representa o atraso dos voos e a contagem será o número de voos que se enquadram nesse intervalo. A largura do binwidth é o parâmetro mais importante para um histograma e devemos sempre experimentar alguns valores diferentes de binwidth para selecionar o melhor para os nossos dados.

Para fazer um histograma básico em Python, podemos usar tanto matplotlib ou seaborn. O código abaixo mostra chamadas de função em ambas as bibliotecas que criam figuras equivalentes. Para as chamadas de gráficos, nós especificamos a largura do binwidth pelo número de bins. Para este gráfico, utilizarei caixas com 5 minutos de comprimento, o que significa que o número de caixas será o intervalo dos dados (de -60 a 120 minutos) dividido pela largura da caixa, 5 minutos ( bins = int(180/5)).

Histograma (figura equivalente produzida por ambos matplotlib e seaborn)

A escolha da largura do binwidth afecta significativamente o gráfico resultante. Larguras de contentor mais pequenas podem tornar o gráfico desordenado, mas larguras de contentor maiores podem obscurecer nuances nos dados. O Matplotlib irá automaticamente escolher uma largura razoável para você, mas eu mesmo gosto de especificar a largura do binwidth depois de experimentar vários valores. Não existe uma verdadeira resposta certa ou errada, por isso tente algumas opções e veja qual funciona melhor para os seus dados em particular.

Quando os Histogramas Falham
Solução #1: Histogramas lado a lado
Solução #2: Barras Empilhadas
Planos de densidade
Gráficos de densidade em Seaborn
Solução #3 Density Plot
Pacotes de densidade sombreados
Rug Plots
Conclusions

Quando os Histogramas Falham

Histogramas são uma óptima maneira de começar a explorar uma única variável retirada de uma categoria. Entretanto, quando queremos comparar as distribuições de uma variável em múltiplas categorias, os histogramas têm problemas com a legibilidade. Por exemplo, se quisermos comparar as distribuições de atraso de chegada entre companhias aéreas, uma abordagem que não funciona bem é criar histogramas para cada companhia aérea no mesmo gráfico:

Histogramas de Sobreposição com Múltiplas Linhas Aéreas

(Note que o eixo y foi normalizado para contabilizar o diferente número de voos entre linhas aéreas. Para fazer isso, passe no argumento norm_hist = True para a chamada de função sns.distplot.)

Este gráfico não é muito útil! Todas as barras sobrepostas tornam quase impossível fazer comparações entre as companhias aéreas. Vamos ver algumas soluções possíveis para este problema comum.

Solução #1: Histogramas lado a lado

Em vez de sobrepor os histogramas das companhias aéreas, podemos colocá-los lado a lado. Para fazer isso, criamos uma lista dos atrasos de chegada para cada companhia aérea, e então passamos isso para a chamada de função plt.hist como uma lista de listas. Temos de especificar cores diferentes para cada companhia aérea e uma etiqueta para que possamos distingui-las. O código, incluindo a criação das listas para cada companhia aérea está abaixo:

Por defeito, se passarmos numa lista de listas, o matplotlib irá colocar as barras lado a lado. Aqui, eu mudei a largura do binwidth para 15 minutos porque senão o gráfico está muito desordenado, mas mesmo com esta modificação, este não é um número efetivo. Há muita informação para processar de uma só vez, as barras não se alinham com as etiquetas, e ainda é difícil comparar as distribuições entre companhias aéreas. Quando fazemos um enredo, queremos que seja o mais fácil para o espectador compreender, e este número falha por esse critério! Vamos olhar para uma segunda solução potencial.

Solução #2: Barras Empilhadas

Em vez de plotar as barras para cada linha aérea lado a lado, podemos empilhá-las passando no parâmetro stacked = True para a chamada do histograma:

# Stacked histogram with multiple airlines
plt.hist(, bins = int(180/15), stacked=True,
normed=True, color = colors, label=names)

Bem, isso definitivamente não é melhor! Aqui, cada companhia aérea é representada como uma secção do todo para cada contentor, mas é quase impossível fazer comparações. Por exemplo, com um atraso de -15 a 0 minutos, a United Air Lines ou a JetBlue Airlines tem um tamanho maior da barra? Eu não posso dizer e os telespectadores também não poderão. Eu geralmente não sou um proponente de barras empilhadas porque elas podem ser difíceis de interpretar (embora haja casos de uso, como quando se visualizam proporções). Ambas as soluções que tentamos usar histogramas não tiveram sucesso, e por isso é hora de passar para o gráfico de densidade.

Planos de densidade

Primeiro, o que é um gráfico de densidade? Um gráfico de densidade é uma versão suavizada e contínua de um histograma estimado a partir dos dados. A forma mais comum de estimativa é conhecida como estimativa de densidade de kernel. Neste método, uma curva contínua (o kernel) é desenhada em cada ponto de dados individual e todas essas curvas são então adicionadas para fazer uma única estimativa de densidade suave. O kernel mais frequentemente usado é um gaussiano (que produz uma curva de sino gaussiano em cada ponto de dados). Se, como eu, você acha essa descrição um pouco confusa, dê uma olhada no seguinte gráfico:

A curva mostra a plotagem de densidade que é essencialmente uma versão suave do histograma. O eixo y é em termos de densidade, e o histograma é normalizado por padrão para que tenha a mesma escala y do gráfico de densidade.

Análogo à largura do binwidth de um histograma, um gráfico de densidade tem um parâmetro chamado largura de banda que muda os grãos individuais e afeta significativamente o resultado final do gráfico. A biblioteca de plotagem irá escolher um valor razoável da largura de banda para nós (por padrão usando a estimativa ‘scott’), e ao contrário da largura do binwidth de um histograma, eu normalmente uso a largura de banda padrão. No entanto, podemos olhar para usar diferentes larguras de banda para ver se há uma escolha melhor. No gráfico, ‘scott’ é o padrão, que parece ser a melhor opção.