Coeficiente de correlação de Pearson
A correlação entre duas variáveis nos permite ter uma ideia do grau de associação ou covariação que existe entre estas duas variáveis. Assim, os coeficientes de correlação são uma espécie de representação numérica da relação entre 2 variáveis (1). No entanto, o que é o coeficiente de correlação de Pearson?
Bravais já fez uma aproximação do que conhecemos hoje como coeficiente de correlação de Pearson em 1846. No entanto, Karl Pearson foi o primeiro a descrever, em 1896, o método padrão do seu cálculo e a mostrar que ele é o melhor possível.
Pearson também fez alguns comentários sobre uma extensão da ideia criada por Galton. Foi este último que a aplicou aos dados antropométricos. Pearson chamou esse método de método dos “momentos produto” (ou função de Galton para o coeficiente de correlação r).
O coeficiente de correlação de Pearson está associado ao ajuste de modelos muito comuns em estatística, como a análise de regressão, o coeficiente de determinação e um indicador de qualidade do ajuste.
No entanto, o próprio Pearson (1896) falou da necessidade de as variáveis analisadas (correlacionadas) cumprirem certos pressupostos, como a normalidade.
Por outro lado, Spearman (1904) observou:
“O requisito mais fundamental é poder medir nossa correspondência observada por meio de um simples símbolo numérico. Não há razão para se contentar com generalidades vagas como “grande”, “médio”, “pequeno” ou, por outro lado, tabelas e compilações complicadas. A primeira pessoa a ver a possibilidade desse imenso avanço parece ter sido Galton.”
– Spearman, 1904-
Coeficiente de correlação de Spearman e sua função
O coeficiente de correlação de Spearman é uma estatística de classificação não paramétrica (sem distribuição de probabilidade associada). Foi proposta como uma medida da força da associação entre duas variáveis. É uma medida de associação monotônica usada quando a distribuição de dados torna o coeficiente de correlação de Pearson enganoso.
O coeficiente de Spearman não é uma medida da relação linear entre duas variáveis, como alguns “estatísticos” afirmam. Avalia o grau em que uma função monotônica arbitrária pode descrever a relação entre duas variáveis.
Ao contrário do coeficiente de correlação de Pearson, ele não assume que a relação entre as variáveis seja linear. Também não requer que as variáveis sejam medidas em escalas de intervalo; também pode ser usado para variáveis medidas a nível ordinal.
A princípio, o coeficiente de Spearman é simplesmente um caso especial do coeficiente de Pearson. Nele, os dados são convertidos em intervalos antes de calcular o coeficiente.
As hipóteses que fundamentam o coeficiente de correlação
As hipóteses que fundamentam o coeficiente de correlação de Pearson são as seguintes (2):
- A distribuição conjunta das variáveis (X, Y) deve ser normal bivariada.
- Em termos práticos, para validar essa suposição, deve-se observar que cada variável é normalmente distribuída. Se apenas uma das variáveis se desvia da normalidade, a distribuição conjunta também não é normal.
- Deve haver uma relação linear entre as variáveis (X, Y).
- Para cada valor de X, há uma subpopulação de valores de Y normalmente distribuídos.
- Subpopulações de valores de Y têm variância constante.
- As médias das subpolações de Y estão localizadas na mesma linha reta.
- As subpopulações de X têm variância constante.
- As médias das subpopulações de X estão na mesma linha reta.
- Para cada valor de Y, há uma subpolação de valores de X que são normalmente distribuídos.
Conclusão
Ao analisar os coeficientes de Pearson e Spearman, pode-se esperar que o significado de um implique o significado do outro. Por outro lado, uma implicação reversa não parece necessariamente ser logicamente verdadeira. Assim, a importância da correlação de Spearman pode levar à importância ou não do coeficiente de correlação de Pearson. Isso ocorre mesmo para grandes conjuntos de dados (1).
Por outro lado, é melhor não usar o coeficiente de correlação de classificação de Spearman como medida de concordância, como a que podemos precisar para afinar um instrumento. Por outro lado, é uma medida muito útil quando temos muitos valores extremos (a suposição de normalidade é violada).
Todas as fontes citadas foram minuciosamente revisadas por nossa equipe para garantir sua qualidade, confiabilidade, atualidade e validade. A bibliografia deste artigo foi considerada confiável e precisa academicamente ou cientificamente.
-
Müller, R., & Büttner, P. (1994). A critical discussion of intraclass correlation coefficients. Statistics in medicine, 13(23‐24), 2465-2476.
-
Restrepo, L. F., & González, J. (2007). From pearson to Spearman. Revista Colombiana de Ciencias Pecuarias, 20(2), 183-192.
-
Altman, D. G. (1990). Practical statistics for medical research. CRC press.