Teorias dos testes: a TCT e a TRI

Os testes são usados na psicologia como instrumentos de medida. Para nos aproximarmos um pouco do conceito, assim como usamos o medidor para medir o comprimento, poderíamos usar um teste para medir a inteligência, a memória, a atenção… Uma das diferenças entre uma e outra ação seria que os testes não são tão fáceis de construir, e nem tão fáceis de aplicar.

Além disso, assim como uma única medida não nos permite falar sobre o volume de um objeto, a administração de um único teste não nos permite diagnosticar ou propor uma intervenção. Assim, os testes são importantes para a avaliação, mas não são determinantes.

É aqui que o psicólogo desempenha o papel mais importante: de alguma forma, ele precisa usar as informações que obteve do teste e de outras fontes para moldar uma avaliação coerente que dê lugar ao planejamento da intervenção.

Em outras palavras, é na integração dos resultados de diferentes fontes que a qualidade do profissional é mais perceptível. Falamos de uma habilidade que é alcançada com conhecimento, mas também com os anos de experiência.

Breve histórico das teorias dos testes

A origem dos testes costuma ser citada nas provas realizadas pelos imperadores chineses nos anos 3000 aC. Elas tinham como objetivo avaliar a competência profissional dos oficiais que iam estar a seu serviço. (1)

Os testes atuais têm suas origens mais próximas nos testes realizados por Galton (1822-1911) em seu laboratório. No entanto, foi James Cattell que usou primeiro o termo teste mental em 1890.

Como esses primeiros testes não eram muito preditivos da capacidade cognitiva do ser humano, pesquisadores como Binet e Simon (1905) introduziram, em sua nova escala, tarefas cognitivas para avaliar aspectos como julgamento, entendimento e raciocínio.

A escala de Binet inaugurou uma tradição de escalas individuais. Além dos testes cognitivos, houve grandes avanços nos testes de personalidade.

Por que as teorias dos testes são necessárias?

Diante de todos os avanços produzidos, começam a se desenvolver teorias de medição (teorias dos testes) que afetam diretamente os testes como instrumentos que são.

Com a preocupação de gerar instrumentos que meçam o que queremos que eles meçam e o façam com o menor erro possível, surge a psicometria. Uma psicometria que exigirá de qualquer teste ou instrumento de medida que seja válido e que seja confiável.

Devemos lembrar que a confiabilidade é entendida como a estabilidade ou consistência das medidas quando o processo de medição se repete. Em outras palavras, um teste será mais confiável quanto melhor se replicarem os resultados diante da medição de dois sujeitos – ou do mesmo sujeito em momentos diferentes – que tenham o mesmo nível medido.

Por outro lado, a validade refere-se ao grau em que a evidência empírica e a teoria apoiam a interpretação das pontuações dos testes. (2)

Assim, existem duas grandes teorias dos testes ou abordagens quando falamos em analisar e construir esse tipo de instrumento: a teoria clássica dos testes (TCT) e a teoria da resposta ao item (TRI).

A teoria clássica dos testes (TCT)

É a teoria dominante na construção e análise dos testes. A razão: é relativamente fácil criar testes que atendam aos mínimos exigidos por esse paradigma. Também é relativamente simples a avaliação do próprio teste quanto aos parâmetros mencionados: confiabilidade e validade.

Tem sua origem nas obras de Spearman no início do século XX. Depois, em 1968, os pesquisadores Lord e Novick realizaram uma reformulação dessa teoria e abriram o caminho para a nova abordagem da TRI.

Esta teoria é baseada no modelo linear clássico. Esse modelo foi proposto por Spearman e consiste em assumir que a pontuação que uma pessoa obtém em um teste, que chamamos de pontuação empírica, e que geralmente é designada com a letra X, é formada por dois componentes. (2)

Por um lado, encontramos a pontuação real do sujeito no teste (V) e, por outro, o erro (e). É expressa da seguinte forma: X = V + e.

Spearman acrescenta três suposições a essa teoria:

Primeiro, definir a pontuação verdadeira (V) como o valor esperado da pontuação empírica: trata-se da pontuação que uma pessoa teria em um teste se o fizesse um número infinito de vezes.
Não há relação entre a quantidade de pontuações verdadeiras e o tamanho dos erros que afetam essas pontuações.
Finalmente, os erros de medida em um teste não estão relacionados a erros de medida em outro teste diferente.

Para chegar a essa teoria, Spearman definiu testes paralelos como aqueles que medem o mesmo, mas com itens diferentes.

Limitações da abordagem clássica

A primeira limitação é que, dentro dessa teoria, as medidas não são invariantes em relação ao instrumento utilizado. Isso significa que, se um psicólogo avaliar a inteligência de três pessoas com um teste diferente para cada uma, os resultados não serão comparáveis. Mas, por que isso acontece?

Os resultados dos três instrumentos de medida não estão na mesma escala: cada teste tem a sua própria escala. Para poder comparar, por exemplo, a inteligência de X pessoas que tenham sido avaliadas com diferentes testes de inteligência, é necessário transformar as pontuações obtidas diretamente do teste em outras escalas.

O problema disso é que, ao transformar as pontuações em escalas, assumimos que os grupos normativos nos quais as escalas dos diferentes testes foram elaborados são equiparáveis - mesma média, mesmo desvio padrão -, o que é difícil de garantir na prática.

(1) Assim, a nova abordagem da TRI foi um grande avanço em relação a esse fato. A TRI garantirá, assim, que os resultados obtidos ao usar instrumentos diferentes estejam na mesma escala.

A segunda limitação dessa abordagem é a ausência de invariância das propriedades dos testes em relação às pessoas usadas para estimá-la. Assim, no TCT, as importantes propriedades psicométricas dos testes dependem do tipo de amostra usada para calculá-los. Este é um fato que também encontra uma solução, pelo menos parcial, na abordagem da TRI.

A teoria da resposta ao item (TRI)

A teoria da resposta ao item (TRI) nasce como um complemento à teoria dos testes clássicos. Em outras palavras, a TCT e a TRI poderiam avaliar um mesmo teste, assim como estabelecer uma pontuação ou relevância para cada um dos itens, o que, por sua vez, poderia nos dar um resultado diferente para cada pessoa.

Por outro lado, ao apontar que a TRI nos daria um instrumento muito melhor calibrado, o problema é que esse paradigma tem um custo muito maior e exige a participação de profissionais especializados.

A TRI possui várias suposições, mas talvez a mais importante seja de que qualquer instrumento de medição deveria estar alinhado com uma ideia: existe uma relação funcional entre os valores da variável que mede os itens e a probabilidade de acertá-los. Essa função é chamada de curva característica do item (CCI). O que supomos, então?

Bem, algo que de fora pode parecer muito lógico e que a TCT não avalia. Por exemplo, os itens mais difíceis seriam aqueles que apenas as pessoas mais inteligentes respondem. Por outro lado, um item que todas as pessoas respondem corretamente não valeria a pena porque não teria poder de discriminar. Em outras palavras, não daria nenhuma informação. Este é apenas um pequeno esboço da revolução proposta pela TRI.

Para ver um pouco melhor as diferenças entre um modelo de medida e outro, podemos tomar como referência a tabela de José Muñiz (2010):

Tabela 1. Diferenças entre a TCT e a TRI (Muñiz, 2010)

Aspectos	TCT	TRI
Modelo	Linear	Não linear
Pressupostos	Fracos (fáceis de cumprir com os dados)	Fortes (difíceis de cumprir com os dados)
Invariância das medições	Não	Sim
Invariância das propriedades do teste	Não	Sim
Escala das pontuações	Entre 0 e a máxima no teste	Infinito
Ênfase	Teste	Item
Relação item-teste	Não especificado	Curva característica do item
Descrição dos itens	Índices de Dificuldade e Discriminação	Parâmetros a, b, c
Erros de medida	Erro típico de medida comum para toda a amostra	Funções de informação (varia de acordo com o nível de proficiência)
Tamanho da amostra	Pode funcionar bem com amostras de aproximadamente 200 a 500 indivíduos	Recomenda-se mais de 500 indivíduos

É assim que as duas teorias dos testes se relacionam. Embora sendo quase contemporâneas, parece claro que a TRI nasce em resposta às limitações ou problemas que a TCT pode desenvolver. No entanto, fica claro que a pesquisa ainda tem um longo caminho neste campo da psicometria.