Regressão Linear: Entendendo a correlação entre variáveis.

Regressão Linear: Entendendo a correlação entre variáveis.

Você já deve ter se perguntado se o preço do dólar tem influência na economia brasileira, ou se o seu time do coração têm melhores desempenhos jogando com a torcida ao seu favor, ou até mesmo se há mais trânsito em dias de chuva. Essas e mais diversas indagações são respondidas através de um importante modelo estatístico: a regressão linear.

O que são variáveis?

Chamamos de variável tudo aquilo que pode sofrer alterações, sejam elas numéricas ou não. Alguns exemplos de variáveis: idade, preço, medidas de comprimento, cor de uma determinada substância, velocidade de um automóvel, temperaturas; dentre outras.

Correlação x Causalidade. Você sabe a diferença?

No dia a dia é comum a confusão entre os termos, mas há uma importante distinção entre eles. Causalidade é quando existe uma relação causal entre variáveis, ou seja, uma variável é influenciável, de maneira evidente, por outras.

Os exemplos de causalidade estão por toda parte e você já deve ter percebido de maneira intuitiva: o aumento de chuvas e alagamentos, ventanias e queda de árvores, lei da oferta e demanda, etc.

Já para a aplicação do termo ‘correlação’ não há, obrigatoriamente, necessidade dessa relação causal, basta que as variáveis estejam relacionadas de alguma forma. Observe que toda relação causal está correlacionada, mas o inverso não é verdadeiro. Daí surge a famosa frase dos estatísticos ‘correlação não implica em causalidade’.

Conforme a venda de sorvete aumenta, mais mortes por afogamento ocorrem. Quanto mais alta está a maré, mais trânsito há nas rodovias. Obviamente, não há relação de causa e efeito em ambas as afirmações (os sorvetes não causam afogamento, nem tampouco as marés causam trânsito). Entretanto, essas variáveis estão correlacionadas.

Nos exemplos supracitados é evidente que há uma terceira variável que influencia as demais: o verão e o horário do dia, respectivamente.

O poder dos gráficos para a análise de dados

Os gráficos são uma ferramenta fundamental para uma melhor visualização e compreensão de determinado fenômeno e/ou conjunto de dados, pois eles representam, visualmente, o que os números estão nos dizendo! Porém, dentro os diversos tipos de gráficos existentes, alguns deles são mais apropriados para diferentes análises. No caso da regressão linear, você saberia dizer qual deles é o melhor?

O gráfico de dispersão é, sem dúvidas, o melhor nesse quesito. É construído da seguinte forma: a variável independente localiza-se no eixo horizontal e a variável dependente no eixo vertical. Logo após introduzir os dados através de pontos no gráfico, é traçado a chamada reta de regressão ou linha de tendência.

Os dados podem ser relacionados positivamente, negativamente ou até mesmo nem estarem relacionados. Para saber o grau de associação basta analisar o coeficiente da reta de regressão, coeficiente este que varia de –1 a 1. Coeficientes próximos a –1 representam uma correlação negativa, próximos a 0 indicam ausência de correlação e próximos a 1 indicam correlação positiva.

Observe os gráficos a seguir.

E aí, gostou desse artigo? Espero que sim. Não se esqueça de compartilhar e visitar o nosso blog.

Autor: Kaiky Dutra

ESCREVER UM COMENTÁRIO

Enter your keyword