Análise de regressão linear: conceito e características

Às vezes, em uma pesquisa, estamos interessados em saber se existe uma relação linear entre duas variáveis aleatórias. É para isso que usamos a análise de regressão linear.

O coeficiente que nos permite obter esses dados é o coeficiente de correlação linear de Pearson r, cujo valor varia de -1 a +1 (1). Nos casos em que o coeficiente de regressão linear está próximo de +1 ou -1, faz sentido considerar a equação da linha que “melhor se ajusta” à nuvem de pontos como uma modelagem aceitável da associação entre as duas variáveis.

Principalmente, essa linha nos permite estimar os valores de Y que obteríamos para diferentes valores de X. Esses conceitos serão representados no que chamamos de diagrama de dispersão. O procedimento mais comum para determinar a linha de melhor ajuste é o dos mínimos quadrados.

Um exemplo de uso de análise de regressão linear

Digamos que precisamos fazer pesquisas para uma empresa. Ela quer saber a relação entre as vendas de uma empresa e as suas despesas com publicidade. O que podemos fazer? A análise de regressão linear permite saber em que grau as despesas com publicidade explicam a variável de vendas. Assim, esta última variável será a variável dependente do modelo, enquanto a variável explicativa ou independente serão os gastos com publicidade.

A utilização desse modelo nos permitirá observar qual é a influência dos gastos com publicidade no faturamento ou nas vendas da empresa (1). Para descobrir, temos a equação da linha de regressão linear. Para quantificar a relação entre as duas variáveis e ter uma aproximação da magnitude da influência dos gastos com propaganda nas vendas da empresa, podemos estimar o modelo por mínimos quadrados ordinários (MQO), onde a soma dos quadrados dos resíduos é minimizada.

Este resíduo é a diferença entre um valor observado e o valor estimado. Mas para que serve essa informação? Bom, o objetivo é minimizar a soma dos quadrados dos resíduos. No entanto, devemos ter em mente que, ao representar esta análise, nem todos os pontos serão encontrados dentro da linha de regressão (na verdade, é raro que haja algum). Se todos fossem, e também se o número de observações fosse grande o suficiente, não haveria erro de estimativa. Nesse caso, não haveria diferença entre o valor observado e o valor de predição (1).

O erro padrão de estimativa

Em casos reais, os ajustes absolutos do modelo à realidade não ocorrem. É por isso que existe uma medida que descreve quão precisa é a previsão de Y em função de X. Ou, inversamente, quão imprecisa a estimativa pode ser. Essa medida é chamada de erro padrão de estimativa. É usada na análise de regressão linear para medir a dispersão em torno da linha de regressão.

Suposições do modelo de regressão linear

Se as nossas observações forem uma amostra aleatória proveniente de uma população, então nos interessa fazer inferências sobre isso. Para que essas inferências sejam “estatisticamente razoáveis”, as seguintes condições devem ser atendidas:

Na população, a relação entre as variáveis X e Y deve ser aproximadamente linear.
Os resíduos são distribuídos de acordo com uma curva normal com média 0.
Além disso, os resíduos são independentes uns dos outros.
Os resíduos têm variância constante.

Assim, este modelo de regressão linear é bastante “robusto”. Isso significa que não é necessário que as condições anteriores sejam cumpridas com exatidão (em particular as três últimas).

Inferência no modelo de regressão

Depois de calcularmos a linha de regressão e a qualidade do ajuste que alcançamos com o modelo de regressão linear, o próximo passo é realizar um teste de hipótese em que a hipótese nula corresponderá à ausência de uma relação e a rejeição da hipótese nula à presença de uma relação significativa.

Para fazer isso, devemos testar se a correlação entre as duas variáveis é diferente de zero ou se o modelo de regressão é válido no sentido de testar se a análise da nossa variável endógena (Y) é válida por meio da influência da variável explicativa (X )

Resumindo, a análise de regressão linear se aplica a incontáveis aspectos da vida real. É usada tanto no campo social quanto no científico, e é a chave para entender algumas relações entre variáveis nas estatísticas.