ARTIGO ORIGINAL
Análise multivariada: um exemplo usando modelo log-linear
Multivariate analysis an example of the use of a log-linear model
José Maria Pacheco de SouzaI; Maria Helena D'Aquino BenicioII
IDo Departamento de Epidemiologia da Faculdade de Saúde Pública da Universidade de São Paulo Av. Dr. Arnaldo, 715 01255 São Paulo, SP Brasil
IIDo Departamento de Nutrição da Faculdade de Saúde Pública da Universidade de São Paulo Av. Dr. Arnaldo, 715 01255 São Paulo, SP Brasil
RESUMO
Apresenta-se de forma resumida análise multivariada de dados categóricos, usando modelo log-linear para a situação de uma tabela de contingência 2 x 2 x 2.
Unitermos: Análise multivariada. Modelo log-linear.
ABSTRACT
A multivariate analysis of categorical data using a log-linear model for a 2 x 2 x 2 contingency table is presented.
Uniterms: Multivariate analysis.
INTRODUÇÃO
A técnica de análise multivariada de dados categóricos, mediante modelos log-linear ou modelo logito, é bastante útil em trabalhos na área de Saúde Pública e Epidemiologia, onde é comum se ter tabelas de contingência complexas, com grande número de variáveis.
O objetivo do presente trabalho é apresentar de forma resumida tal técnica, para a situação particular de três variáveis, cada uma com duas categorias mutuamente exclusivas, ou seja, para a situação de uma tabela de contingência 2 x 2 x 2. Worcester 5 apresenta trabalho em linha semelhante, analisando também a situação para tabela 2 x 2. Vitaliano 6 analisa situação mais complexa em um estudo caso-controle.
O exemplo numérico consta de dados referentes ao trabalho de Benício 1, um programa de computador que executa os algoritmos necessários à análise - ECTA -, escrito por Leo Goodman, encontra-se à disposição no Centro de Computação Eletrônica da Universidade de S. Paulo. Sobre o assunto há vários textos, de vários níveis de complexidade matemática 2,3,4.
MODELO LOG-LINEAR
Seja a distribuição teórica de freqüências da Tabela 1, onde Fijk é a freqüência teórica dos níveis i, j, k, respectivamente das variáveis 1, 2 e 3, onde i, j, k variam de 1 a 2. F112 é o número esperado teórico de indivíduos com a característica 1 da variável 1, com a característica 1 da variável 2 e com a característica 2 da variável 3.
Tomando-se logaritmo natural 1n (base e = 2,71828...), pode-se demonstrar2,3 que 1n Fijk = B + B1 (i) + B2(j) + B3(k) + B12(ij) + B13 (ik) + B23 (kj) + B123 (ijk) onde os B's são parâmetros que representam "efeitos", a exemplo da análise de variância;
Note-se que B é a média aritmética dos logarítmos naturais das freqüências teóricas; B1 (1) mede o desvio da média aritmética dos logarítmos das freqüências teóricas da categoria 1 da variável 1 em relação à média geral B, ou seja, mede o "efeito" 1 da variável 1; analogamente tem-se B1 (2), B2 (1), B2 (2), etc., sendo B1 (1) + B1(2) = 0; B2 (1) + B2(2) = 0; B3(1) + B3(2) = 0, etc.
Os parâmetros com subscrito duplo e triplo são os mais importantes para a análise, sendo aqueles que medem as possíveis associações (interações) entre variáveis. Assim, B12(11) é o parâmetro que indica se as categorias 1 da variável 1 e da variável 2 estão associadas; se B12(11) = 0 não há associação; se B12(11) < 0 tem-se associação negativa; se B12(11) > 0 tem-se associação positiva.
As freqüências F e os parâmetros B são desconhecidos. A partir de modelos e das freqüências observadas fijk, obtém-se estimativas das freqüências Fijk e dos B's, denotados, respectivamente, por Eijk e b.
AJUSTE E TESTE DE MODELO: TESTE DE B
Considera-se modelo adequado para descrever a estrutura de um conjunto de dados [fijk] aquele que contém o menor número possível de parâmetros e apresenta um bom ajuste. A estatística , tem distribuição assintótica X2 com g graus de liberdade 2, onde g é o número de parâmetros eliminados; o ajuste é bom quando c2 for menor do que c2g (crítico) para um nível de significância desejado.
A decisão sobre o modelo final adequado pode ser tomada seguindo um processo de eliminação de parâmetros um a um, a partir do modelo mais completo com todos os parâmetros, chamado modelo saturado. A cada passo é calculada a estatística X2; em dois passos imediatamente sucessivos, onde no posterior um parâmetro foi retirado do modelo, calculam-se as estatísticas X2 com g-1 e g graus de liberdade. A diferença entre elas tem distribuição assintótica X2 com 1 grau de liberdade e dá indicação sobre a manutenção ou não do parâmetro em questão no modelo. Se c2g c21 = c2g-1 for maior do que o c21 para um nível de significância desejado, o parâmetro é retido. A seqüência de testes se encerra quando todos os parâmetros remanescentes têm indicações para não serem retirados. Se os parâmetros B12, B13, B23 e B123 puderem ser eliminados restando o modelo 1n Fijk = B + B1 (i) + B2 (j) + B3 (k), tem-se a situação de completa independência entre as três variáveis.
EXEMPLO DE AJUSTE; EXAME DAS ASSOCIAÇÕES
A Tabela 2 apresenta dados sobre gestantes quanto ao tabagismo (variável 3), sobre escolaridade da gestante (variável 2) e o peso do seu recém-nascido (variável 1). Cada uma das variáveis tem duas categorias mutuamente exclusivas: não fuma (1), fuma (2); escolaridade alta (1), baixa (2); baixo peso: não (1), sim (2).
O modelo log-linear completo, saturado, é o modelo 0. Modelo 0: 1 n Fijk = B + B1 (i) + B2 (j) + B3 (k) + B12 (ij) + B13(ik) + B23(jk) + B123(ijk); o c2 para este modelo não é definido, pois o número de parâmetros é igual ao número de freqüências observadas. Há interesse em verificar qual dos parâmetros B123, B12, B13, B23 deve permanecer. O primeiro passo é ajustar um modelo em que B123 (ijk) é eliminado; é o modelo 123: 1n Fijk = B + B1 (i) + B2 (j) + B3 (k) + B12 (ij) + B13 (ij) + B23 (jk).
Calculado o c2 para o ajuste deste modelo, toma-se a decisão sobre a eliminação ou não de B123 (ijk). A Tabela 3 mostra as freqüências esperadas para este modelo; c21 = 0,509 é um indicador de um bom ajuste.
O modelo seguinte a ser ajustado é o modelo 123, 23, aquele em que foram retirados os parâmetros B123 e B23, permitindo verificar se o parâmetro B23 deve ou não ser retirado. A Tabela 4 mostra as freqüências esperadas para este modelo; c22 = 8,328 indica que o ajuste não é bom, ou seja, B23 deve permanecer. O teste de b23 pode ser feito mediante 8,328 - 0,509 = 7,819 que tem distribuição aproximada c2 com 1 grau de liberdade; o valor observado sugere que B23 é diferente de zero e, portanto, deve ser mantido.
A retirada ou não do parâmetro B12 é decidida a partir do modelo 123, 12. A Tabela 5 mostra as freqüências esperadas; c22 = 15,956 indica que o ajuste não é bom, ou seja, B12 deve ser mantido. O teste de b12 mediante a diferença de x2 tem o seguinte resultado: 15.956 - 0,509 = 15,447.
Finalmente procura-se ajustar o modelo 123, 13 para verificar se o parâmetro B13 pode ser retirado. A Tabela 6 mostra as freqüências esperadas sob este modelo; c2 = 46,394 indica que o parâmetro deve permanecer. O teste de b13 é 46,394 - 0,509 = 45,885.
Portanto, o modelo final que permite um bom ajuste é o modelo 123. As estimativas b12, b13 e b23 são feitas usando os Eíjk da Tabela 3 e são apresentadas no seu rodapé.
Tem-se as seguintes interpretações: 1) Quer para mães fumantes como para não-fumantes, há associação positiva entre baixa escolaridade da mãe e baixo peso ao nascer do filho parâmetro B12 (11). 2) Qualquer que seja a escolaridade da mãe, há associação positiva entre a mãe fumar e baixo peso ao nascer parâmetro B13(11). 3) Há associação negativa entre escolaridade alta da mãe e ela não fumar, ou associação positiva entre escolaridade alta e fumar parâmetro B23 (11). 4) Não há interação simultânea das três variáveis parâmetro B123(111).
RISCO RELATIVO; RAZÃO DOS PRODUTOS CRUZADOS
Seja a variável 1 considerada "resposta" e a distribuição das freqüências nas duas categorias desta variável resposta dependente das categorias das outras variáveis chamadas "fatores". A categoria 2 da variável 1 (nascimento de uma criança com baixo peso) pode ser considerada como representando um evento desfavorável; assim a relação E2jk ÷ (Eijk + E2jk), estimadas por f2jk ÷ (fijk + f2jk), mede o "risco" de uma mãe com a combinação de características jk quanto às variáveis 2 e 3 vir a ter um evento desfavorável, qual seja, ter um recém-nascido de baixo peso.
É possível, e muitas vezes desejável, comparar riscos associados a diferentes combinações de categorias dos fatores. Por exemplo, no caso específico que está sendo apresentado, uma comparação seria entre riscos de baixo peso de recém-nascidos de mães que têm baixa escolaridade com mães que têm alta escolaridade, entre as não-fumantes. Usando os dados da Tabela 2, tem-se
[ f221 ÷ (f121 + f221)] ÷
÷ [f211 ÷ (f111 + f222)] = 1,36
O valor 1,36 é o risco relativo (estimado) e diz que o risco de uma mulher não-fumante de baixa escolaridade ter um recém-nascido de baixo peso é 1,36 maior do que o risco de uma mulher não-fumante de alta escolaridade. Uma boa aproximação de risco relativo é a razão dos produtos cruzados = RPC, onde RPC = (E2jk x Eij'k) ÷ (E1jk x E2j'k)
Usando logarítimo:
Para a situação da tabela 2 x 2 x 2 na configuração aqui apresentada, pode-se mostrar que, para as variáveis resposta (1) e fator (2), 1n RPC(12) = 4 x B12(11), e para as variáveis resposta (1) e fator (3), 1n RPC(13) = 4 x B13 (11), desde que B123 = 0.
Vê-se que RPC até o momento foi avaliado relacionando o risco de categoria, "mais favorável" em relação à "menos favorável", da variável 2, dentro de cada uma das categorias da variável 3, assim como relacionando o risco da categoria "mais favorável" em relação à "menos favorável", da variável 3, dentro de cada uma das categorias da variável 2.
Pode-se também avaliar qual o risco relativo quando o indivíduo pertence simultaneamente às categorias "menos favoráveis" das variáveis 2 e 3, em comparação com indivíduo que pertence simultaneamente às respectivas categorias "mais favoráveis". No exemplo, é o risco relativo de ter recém-nascido de baixo peso entre mães de baixa escolaridade que fumam e mães de alta escolaridade que não fumam. Em geral, existe este interesse, de comparar riscos de combinação de fatores desfavoráveis em relação a uma categoria basal, que é aquele em que as categorias dos fatores são as mais favoráveis. Para esta situação, tem-se
1nRPC = 4[(B12(11) + B13(11)]
MODELO LOGITO; OBTENÇÃO DA RAZÃO DOS PRODUTOS CRUZADOS
É possível ajustar-se um modelo logito a um conjunto de dados [fijk]. Existe equivalência de resultados entre modelo log-linear e modelo logito e igualdade de resultados quanto à obtenção de estimativas de razão de produtos cruzados, quando o modelo log-linear inclui todos os B's correspondentes a efeitos principais e aqueles correspondentes a todas as combinações possíveis de fatores, mais os B que contenham combinações da variável resposta com variável fator estatisticamente significante.
No caso de três variáveis com duas categorias cada, os modelos log-lineares de interesse que seriam equivalentes a modelos logitos são os modelos
1n Fijk = B + B1 (i) + B2 (j) + B3 (k) + B23(jk) + B12(ij)
1n Fijk = B + B1 (i) + B2 (j) + B3 (k) + B23 (jk) + B13 (ik)
1n Fíjk = B + B1 (i) + B2 (j) + B3 (k) + B23 ((jk) + B12 (ij) + B13 (ik)
Ajustado um modelo log-linear, as razões dos produtos cruzados (estimativa dos riscos relativos) podem ser obtidas diretamente dos Eikj. Assim, usando a Tabela 3, tem-se:
Risco relativo entre escolaridade alta e baixa = (210,6 x 2.713,6) ÷ (79,4 x 4.907,4) = (161,4 x 1.252,4) ÷ (2.012,6 x 68,6) = e4b12(11)= 1,47
Risco relativo entre fumantes e não-fumantes = (2.713,6 x 68,6) ÷ (79,4 x 1,252,4) = (4.907,4 x 161,4) ÷ (210,6 x 2.012,6) = e4b13(11) = 1,87
Risco relativo entre escolaridade baixa + fumantes e escolaridade alta + não-fumantes = (2.713,6 x 161,4) ÷ (2.012,6 x 79,4) = e4[b12(11) + b13(11)]= 2,74
onde escolaridade alta + não-fumantes é a categoria basal.
Uma apresentação de resultados que pode facilitar a visão geral de relações é sob a forma da Tabela 7, onde se colocam as possíveis combinações de categorias das variáveis, a categoria basal e os respectivos riscos relativos. É subentendido que o risco relativo de combinações de categorias de variáveis é calculado em relação à categoria basal e que nas categorias que aparecem individualmente o risco é calculado em relação à categoria complementar. Costuma-se chamar tais categorias de "fatores de risco", com exceção da basal. A apresentação exemplificada na Tabela 7 é apropriada quando não há interação entre as três variáveis. Se houvesse interação (B123 x 0), os riscos relativos de cada fator de risco seriam diferentes para cada categoria da outra variável.
AGRADECIMENTO
A um dos relatores pelas valiosas sugestões.
REFERÊNCIAS BIBLIOGRÁFICAS
1. BENICIO, M.H.D'A. Fatores de risco de baixo peso ao nascer em recém-nascidos vivos: município de São Paulo, 1978. São Paulo, 1983. [Tese de Doutoramento Faculdade de Medicina da USP].
2. EVERITT, B.S. The analysis of contingency tables. New York, John Wiley & Sons, 1977.
3. BISHOP, Y.M.M.; FIENBERG, S.E. & HOLLAND, P.W. Discrete multivariate analysis: theory and practice. Cambridge, Mass., M.I.T. Press, 1975.
4. UPTON, G.J.G. The analysis of cross: tabulated data. New York, John Wiley & Sons, 1978.
5. WORCESTER, J. The relative odds in the 23 contingency table. Amer. J. Epidem., 93: 145-9, 1971.
6. VITALIANO, P.P. The use of logistic regression for modeling risk factors: with applications to non-melanoma skin cancer. Amer. J. Epidem., 108: 402-14, 1978.
Recebido para publicação em 27/12/1984
Aprovado para publicação em 21/03/1985