Resumos
Esse artigo visa introduzir e cativar o interesse sobre a análise de séries temporais em estudos epidemiológicos. São descritos aspectos conceituais desse tipo de análise e sistematizadas indicações metodológicas. Foram definidos os principais conceitos da análise de séries temporais (tendência, variação cíclica e sazonal, associação e variação aleatória), e operacionalizada sua aplicação epidemiológica. Foram apresentados os métodos para avaliação da tendência (porcentagem de modificação anual), baseados em modelos de regressão de Prais-Winsten, e para quantificação da variação sazonal, segundo o modelo de Serfling. Foi, ainda, introduzida a modalidade de análise de regressão segmentada para séries temporais interrompidas, como estratégia de avaliação do efeito de intervenções em saúde.
Aplicações da Epidemiologia; Estudos de Séries Temporais; Estatísticas de Saúde/tendências; Variações Sazonais
This paper aims to introduce and raise interest on time series analysis in epidemiological studies. Conceptual aspects are described and methodological guidelines for this type of analysis are systematized. We defined the key concepts of time series analysis (trends, seasonal and cyclical variation, association and random variation), and how they can be applied to epidemiology. Methods to assess trends (annual percent change), based on Prais-Winsten regression models, and to quantify seasonal variation (Serfling model) were presented. We also introduced segmented regression analysis for interrupted time series, as a strategy for assessing effects of health interventions.
Uses of Epidemiology; Time Series Studies; Health Statistics/trends; Seasonal Variations
Este artículo intenta introducir y captar el interés sobre el análisis de series temporales en estudios epidemiológicos. Son descritos aspectos conceptuales de este tipo de análisis y sistematizamos indicaciones metodológicas. Fueron definidos los principales conceptos del análisis de series temporales (tendencia, variación clínica y estacional, asociación y variación aleatoria) y operacionalizamos su aplicación epidemiologia. Fueron presentados métodos para evaluar tendencia (porcentaje de modificación anual), basados en modelos de regresión Prais-Winsten y para cuantificación de variación estacional, según el modelo Serfling. Fue introducida la modalidad de análisis de regresión segmentada para series temporales interrumpidas, como estrategia de evaluación del efecto de intervenciones en salud.
Usos de la Epidemiología; Estudios de Series Temporales; Estadísticas de Salud/tendências; Variaciones Estacionales
Introdução
A perspectiva de antever o futuro sempre encantou a humanidade. Saber o que vai acontecer antes mesmo de os primeiros sinais se manifestarem pode propiciar melhor aproveitamento dos efeitos benéficos de eventos futuros ou uma preparação antecipada de eventuais efeitos adversos. Talvez até mais importante que antecipar os resultados seja reconhecer o que pode interferir, favorável ou desfavoravelmente, nos processos em curso, para permitir o planejamento.
Na epidemiologia, a necessidade de prever o futuro e, com base nisso, intervir nos processos do presente é mais que mera curiosidade ou interesse mesquinho. É, de fato, assunto de vida ou morte, pois a redução da carga de doenças na população depende da efetividade desse esforço.
Este texto tem como objetivo descrever aspectos conceituais e sistematizar indicações metodológicas da análise de séries temporais, o ramo da epidemiologia que permite antever futuros cenários da distribuição de doenças na população e os fatores capazes de modificar essa distribuição para melhor ou pior.
Aspectos conceituais da organização das medidas de doenças no tempo
Imagine um gestor de saúde que indague sobre o coeficiente de mortalidade infantil em sua região, com o objetivo de programar iniciativas de promoção da saúde. Sabe-se que esse coeficiente é influenciado por condições socioeconômicas, saneamento básico, provisão e acesso a serviços de saúde. Entretanto, essas informações podem não ser atuais, tampouco facilmente recuperadas. Ademais, as relações entre mortalidade infantil e essas características são complexas e podem não ser rapidamente equacionadas. Então, o que esse gestor faria para prever o valor desse indicador?
A resposta é intuitiva, o gestor perguntaria qual foi o valor desse coeficiente no ano anterior. Continuando sua reflexão, a próxima pergunta seria: É justo pensar que o que ocorreu no passado recente se repita no futuro imediato? Esta pergunta amplia o escopo da antevisão de futuro. Mais que rever as medidas do ano anterior, o gestor quer saber se a previsão do futuro imediato com base nos valores anteriores verificou-se no passado recente. Para isso, é preciso estudar a movimentação dessa variável no tempo. A análise de séries temporais contempla essa preocupação em derivar conhecimentos sobre a movimentação recente das medidas de interesse em saúde, prever resultados e reconhecer fatores que interferem sobre eles.
Séries temporais foram definidas como 'sequências de dados quantitativos relativos a momentos específicos e estudados segundo sua distribuição no tempo'.11. Wiener N. Extrapolation, interpolation and smoothing of stationary time series. Cambridge: MIT Press; 1966. Esta definição indica a aplicabilidade desse recurso a diferentes finalidades e campos de conhecimento. Serve para aperfeiçoar o fluxo de estoque do almoxarifado, programar a compra de matéria prima para uma atividade industrial, dimensionar o fluxo de vendas em um empreendimento comercial. Estes são apenas alguns exemplos de aplicação das séries temporais para finalidades não necessariamente relacionadas à saúde. O enfoque deste manuscrito visa a análise de medidas de interesse para estudos epidemiológicos.
Séries temporais são uma forma de organizar no tempo as informações quantitativas. A música também é uma forma de organizar no tempo um tipo específico de informação: os registros sonoros. A teoria musical reconhece três elementos da música, possíveis de serem abordados em sua correspondência com a análise epidemiológica das séries temporais: melodia, harmonia e ritmo.
Melodia e tendência
Embora seja difícil definir com precisão, a melodia pode ser pensada como uma sequência de sons organizados de modo a fazer sentido musical. A Figura 1 apresenta um trecho melódico bastante conhecido. De fato, todos se recordam da linha melódica que acompanha a frase 'Ouviram do Ipiranga as margens plácidas'. Sua representação gráfica, na forma de partitura, deixa claro que, exceto pelas duas últimas notas, a melodia progride de notas graves, representadas pelas linhas inferiores do pentagrama, para as agudas, na parte mais elevada da partitura.
Os movimentos melódicos em direção a notas mais graves ou agudas podem ser transpostos aos movimentos de tendências em séries temporais. Na Figura 2, a série temporal do coeficiente de mortalidade geral na cidade de São Paulo-SP, de 1900 a 1994, deixa claro que essa medida evoluiu ao longo do século reduzindo sua magnitude; isto é, passando de valores mais elevados para menos elevados, na escala vertical. Isso configura uma tendência decrescente.
Coeficiente de mortalidade geral na cidade de São Paulo, estado de São Paulo. Brasil, 1900 a 1994
Quando estudamos séries temporais em estudos epidemiológicos, um primeiro elemento da análise focaliza a tendência da medida. Define-se tendência de forma breve e sucinta, como um 'movimento prolongado em uma série ordenada'.22. Porta M. A dictionary of epidemiology. 6th ed. New York: Oxford University Press; 2014. Obviamente, a tendência pode ser decrescente, evidenciada na Figura 2, como também pode ser crescente ou estacionária.
Complexificada um pouco mais, uma série temporal pode apresentar trechos com diferentes tendências. Observa-se como isso ocorre na Figura 3, demonstrativa da série temporal da mortalidade infantil na cidade de São Paulo-SP, abrangendo o mesmo período. A tendência secular de declínio dessa medida foi claramente interrompida entre os anos de 1961 e 1973, quando a mortalidade infantil cresceu de modo consistente. O que teria acontecido nesse período, para justificar tal observação?
Coeficiente de mortalidade infantil na cidade de São Paulo, estado de São Paulo. Brasil,1900-1994
Harmonia e associação
Música não se limita a linha melódica. Imagine-se a diferença entre um violinista ressoando seu instrumento sozinho no palco e outro que toca acompanhado por toda a orquestra! A mesma linha melódica do violino decerto terá outro brilho quando reproduzida em harmonia com a orquestra. Há coisas que, definitivamente, ficam melhor quando ocorrem de modo concomitante. Por exemplo, o vinho que se toma durante as refeições, em harmonia com o sabor dos alimentos. Ou assistir à final do campeonato esportivo sozinho em casa, diante da televisão, ou no estádio, em meio ao calor de toda a massa torcedora de sua equipe!
No piano, enquanto a mão direita dedilha a melodia, a esquerda toca as demais notas dos acordes que compõem a harmonia. Como complementos, a melodia é o desenvolvimento horizontal da música, enquanto a harmonia é seu desenvolvimento vertical, representado pelos acordes formados por sons concomitantes. De modo análogo, quando estudamos a tendência e apreendemos o desenvolvimento horizontal da série no tempo, precisamos atentar, igualmente, para sua complexidade vertical, identificando como suas medidas se harmonizam ou se associam com informações adicionais sobre fenômenos relacionados.
Com essa ideia em mente, reveja-se a série temporal da Figura 2 e identifique-se o pico de mortalidade geral que ocorreu na cidade de São Paulo-SP no ano de 1918. Visualmente, pode-se estimar que o valor correspondente a 1918 foi quase 50% mais elevado que a média entre os anos imediatamente anterior e posterior. Esta informação é compreensível por si só; ela indica que, de fato, algo muito ruim ocorreu com respeito à mortalidade geral em São Paulo-SP, naquele ano.
O significado dessa informação se amplia quando a associamos a outros conhecimentos sobre o que se passou na cidade. Sabe-se que 1918 foi o ano de triste lembrança da gripe espanhola: um grave surto de gripe, com enorme impacto na mortalidade geral. No mesmo estudo do qual foi reproduzida a Figura 2, a série temporal da esperança de vida ao nascer mostrou que essa medida se reduziu, de cerca de 50 anos, em 1917, para menos de 32 em 1918, em função de muitas crianças, adolescentes e adultos jovens vitimados pela gripe.
A perspectiva de harmonizar a interpretação das tendências em séries temporais com outras informações sobre o fenômeno em questão diz respeito ao estudo de associação, recurso bastante usual na epidemiologia. Essas informações adicionais podem ser qualitativas, auxiliando a interpretar motivos para o aumento, diminuição ou persistência dos valores de uma medida de interesse para a saúde. Essas informações também podem ser quantitativas, dando ensejo à aplicação de técnicas estatísticas para estimar sua associação com a série temporal que se tenta explicar.
Exemplificando o uso de informações qualitativas para interpretar a tendência das séries temporais, observa-se que o estudo original, no qual foi delineada a série temporal da Figura 3, aventou duas hipóteses para explicar a inversão de tendência da mortalidade infantil e seu crescimento observado nos anos 1960 e início dos 1970. A primeira delas foi a diminuição do valor real do salário mínimo, parâmetro que regulava a remuneração de uma parcela ponderável das famílias residentes na cidade. A outra hipótese aventava o desmame precoce, a comercialização de leite em pó e a má qualidade da água de abastecimento público, com a qual o alimento era preparado para o consumo infantil.33. Antunes JLF. "Grow and multiply": social development, birth rates and demographic transition in the Municipality of São Paulo, Brazil, time series for 1901-94. Rev Bras Epidemiol. 1998 Apr;1(1):61-78.
Gouveia e colaboradores44. Gouveia N, Hajat S, Armstrong B. Socioeconomic differentials in the temperature-mortality relationship in São Paulo, Brazil. Int J Epidemiol. 2003 Jun;32(3):390-7. oferecem outro exemplo de associação dos dados de uma série temporal para gerar conhecimento em saúde. Seu estudo avaliou a associação entre duas séries temporais, indicando a concomitância de dois fenômenos de interesse para a saúde: a mortalidade geral diária em São Paulo-SP, de 1991 a 1994, e a temperatura média diária na mesma cidade e período.
As temperaturas médias diárias são, é claro, mais baixas no inverno e mais elevadas no verão. Mas a mortalidade geral é mais elevada no inverno que no verão. No estudo de séries temporais, os autores concluíram haver uma associação inversa entre os dois fenômenos: nos períodos quando os dias são mais quentes, a mortalidade geral diária tende a ser menor; e vice-versa, a mortalidade é tendencialmente mais elevada nos períodos de frio.
Diz-se que há uma associação direta ou positiva entre duas séries temporais quando os valores de ambas aumentam ou diminuem concomitantemente. De modo complementar, a associação é inversa ou negativa se o aumento de uma medida corresponde à diminuição da outra, como no exemplo anterior. E se diz que não há associação quando não há correspondência entre as mudanças de valor em ambas as séries. A associação entre séries temporais não necessariamente tem origem causal. O aumento de uma variável pode não ser causa do aumento ou declínio da outra, ambas podem ter causas comuns, e sua associação pode refletir processos mais complexos.
Ritmo e sazonalidade
O ritmo é, possivelmente, o elemento mais intuitivo da teoria musical. De forma ritmada bate o coração, o sol parece girar em torno da Terra, as estações do ano se sucedem. Na música, o ritmo envolve estrofes, refrãos e repetições. Também se dão de forma ritmada os movimentos da dança, ou mesmo de quem, com os dedos, acompanha distraidamente uma canção.
A percepção de que os fenômenos de interesse para a saúde também podem apresentar repetições organizadas no tempo, ou seja, de que há ritmo a ser reconhecido na análise de séries temporais, é muito importante para a epidemiologia. Estamos falando das variações sazonais e cíclicas que afetam a medida de muitas doenças. No exemplo anterior, o movimento sazonal da temperatura é bem conhecido: faz mais frio no inverno que no verão... A originalidade do estudo foi ter documentado a existência de variação sazonal também no número diário de mortes.
A Figura 4 fornece outro exemplo de construção de conhecimento em saúde com base na análise da variação sazonal das séries temporais. Essa figura reproduz, para as regiões Sul e Nordeste do Brasil, a mortalidade semanal por pneumonia e influenza de pessoas na idade de 65 anos ou mais. O período de monitoramento foi de 1996 a 1998, os três anos que antecederam a introdução do programa nacional de vacinação contra a gripe.
Mortalidade semanal de idosos (65 anos ou mais) por influenza e pneumonia nas regiões Sul e Nordeste do país. Brasil, 1996 a 1998
Além da série temporal dos valores observados, foi delineada, para cada macrorregião do país, a sequência da mortalidade esperada em cada semana se não houvesse variação aleatória na medida ou se não ocorressem surtos de gripe causadores de um aumento brusco da mortalidade, como pode ser facilmente identificado em meados de 1996 na região Sul. Também foi delineado o limiar epidêmico, o qual, quando ultrapassado, configura os surtos de gripe.
Na Figura 4, observa-se que ambas as séries apresentam tendência estacionária com variação sazonal. Ao se observar a diferença de escala no eixo vertical, percebe-se que a mortalidade é mais elevada na região Sul que no Nordeste do país. A amplitude de variação sazonal também é mais elevada na região Sul. Essas duas diferenças podem estar relacionadas à maior amplitude de variação meteorológica no Sul, comparativamente ao Nordeste.
O período de máxima mortalidade anual estimada para a região Sul variou entre a 28a e a 31a semanas epidemiológicas (da segunda à quarta semana de julho), que correspondem ao inverno. A hipótese subjacente é de que as pessoas passam mais tempo em ambientes fechados nos dias frios, propiciando a transmissão da gripe. No Nordeste, o período de máxima mortalidade esperada ocorreu entre a 17a e a 22a semanas epidemiológicas (da quarta semana de abril à quarta semana de maio). Como há menos variação de temperatura entre as estações no Nordeste, o período de maior permanência em ambientes fechados ocorre no outono, quando chove mais. Esses dados são indicativos de diferenças no perfil epidemiológico da doença entre as duas macrorregiões.
Na Figura 4, a variação sazonal foi indicada por dados semanais. Utilizar uma escala mensal ou diária também permite a percepção visual de sazonalidade nas séries temporais. A etimologia da palavra 'sazonal' remete às estações do ano. Assim, quando o ciclo de repetição da série temporal se prolonga por mais de um ano, não se fala em sazonalidade e sim em variação cíclica.
A Figura 5 exemplifica uma série temporal com variação cíclica. Medidas epidemiológicas do sarampo são emblemáticas para a percepção da variação cíclica, pois a ocorrência de um surto tende a reduzir o risco de incidência no curto prazo. Os sobreviventes da doença adquirem imunidade e, com menos crianças suscetíveis, a transmissão torna-se menos provável. Ou seja, há imunidade individual e de rebanho interagindo para reduzir o risco da doença. Contudo, nos anos seguintes, crianças imunes vão saindo da faixa etária de maior risco para a doença, enquanto novas crianças vão nascendo e aumentando o número de suscetíveis. Esse processo, de natureza cíclica, pode facilitar a eclosão de um novo surto.
Incidência mensal de sarampo na cidade de São Paulo, estado de São Paulo. Brasil, 1960 a 1993
A Figura 5 indica variação cíclica na incidência de sarampo na cidade de São Paulo-SP. Mesmo nos períodos quando não houve surtos epidêmicos com grande aumento do número de casos da doença, como entre 1975 e 1983, houve aumento cíclico da incidência mensal. A importância epidemiológica dessa variação cíclica pode ser melhor apreciada quando se recorda que no início dos anos 1980, o sarampo foi a segunda principal causa de morte (seguindo-se à pneumonia) no grupo etário de um a cinco anos.77. Antunes JLF, Waldman EA. Trends and spatial distribution of deaths of children aged 12-60 months in São Paulo, Brazil, 1980-98. Bull World Health Organ. 2002;80(5):391-8.
Além da variação cíclica, a Figura 5 apresenta tendência crescente na incidência de sarampo em São Paulo-SP, nos anos 1960, com declínio posterior. Essa redução foi associada a melhorias gerais das condições de vida na cidade e à introdução e aumento de cobertura da vacinação a posteriori.77. Antunes JLF, Waldman EA. Trends and spatial distribution of deaths of children aged 12-60 months in São Paulo, Brazil, 1980-98. Bull World Health Organ. 2002;80(5):391-8.
Ruído e variação aleatória
Em janeiro de 2012, o regente da Orquestra Filarmônica de Nova York interrompeu a execução da Nona Sinfonia de Mahler quando um telefone celular soou na plateia. Os músicos ficaram aturdidos, a desatenção momentânea interrompeu sua percepção de ritmo, distraiu-lhes do curso da melodia e impossibilitou a manutenção do sincronismo necessário à harmonia.
Seguindo o paralelo entre teoria musical e análise de séries temporais, qual seria o elemento de variação das medidas epidemiológicas organizadas no tempo que propiciaria tamanha perturbação na percepção de tendências, associações e variações sazonal e cíclica? O ruído na análise de séries temporais é causado pela variação aleatória da medida, a qual se manifesta visualmente na forma de rugosidade nas linhas dos gráficos de séries temporais.
Há recursos de fácil aplicação para "alisar" a "rugosidade" das séries temporais e aprimorar sua apresentação gráfica, atenuando o efeito da variação aleatória e favorecendo a percepção visual de seus elementos mais importantes.88. Becketti S. Introduction to time series using Stata. College Station: Stata Press; 2013. Note-se que a variação aleatória afeta todas as figuras anteriores, e coexiste com os demais elementos das séries delineadas.
A variação aleatória em séries temporais é definida99. Gaynor PE, Kirkpatrick RC. Introduction to time series modeling and forecasting in business and economics. New York: McGraw-Hill; 1994. como flutuações irregulares e erráticas - que não são importantes em si mesmas -, causadas por fatores do acaso, impossíveis de serem antecipados, detectados, identificados ou eliminados. Curiosamente, o termo "ruído" também é empregado para referir a variação aleatória na análise de séries temporais. A comparação visual das figuras anteriores propicia o reconhecimento de que há mais variação aleatória na Figura 4 que na Figura 3; ou seja, a Figura 4 tem mais rugosidade que a Figura 3. Isto é fácil de explicar: medidas semanais (Figura 4) são mais suscetíveis a variações aleatórias que medidas anuais (Figura 3).
Não é raro que surtos epidêmicos ocorram de forma brusca e inesperada. Na análise de uma série temporal, o que diferencia um surto epidêmico da variação aleatória? Para responder a essa pergunta, reveja-se a definição de variação aleatória apresentada no início do parágrafo anterior; surtos epidêmicos não se enquadram nessa definição. Mesmo quando escapam ao controle, os surtos epidêmicos não ocorrem ao acaso e o esforço de analisar as séries temporais explica-se justamente no sentido de antecipá-los e preveni-los. Por sua magnitude, os surtos epidêmicos não podem ser reduzidos a variações irregulares, erráticas e desimportantes.
***
Tendência, sazonalidade e variação cíclica, associação e variação aleatória. Eis os elementos da análise de séries temporais. Sua definição apoia-se fortemente na disposição gráfica das séries temporais. O gráfico é o primeiro passo para compreender os processos subjacentes às medidas sequenciais ordenadas temporalmente. Esse primeiro passo é importantíssimo e não deve ser subestimado. É mister construir, sempre, o gráfico da série temporal a ser estudada e refletir sobre ele. Sabendo-se o que se procura nas séries temporais, pode-se partir para os métodos práticos de análise.
Aspectos metodológicos da análise de séries temporais
Estimar tendências
Séries temporais podem apresentar tendência crescente, decrescente ou estacionária, e até tendências diferentes em trechos sequenciais. Para estimar a tendência, funções matemáticas são ajustadas aos pontos observados, seja para a série temporal como um todo, seja para o segmento em foco. A quantificação da tendência visa permitir a comparação entre diferentes séries temporais. O método descrito a seguir foi originalmente proposto por Antunes e Waldman.77. Antunes JLF, Waldman EA. Trends and spatial distribution of deaths of children aged 12-60 months in São Paulo, Brazil, 1980-98. Bull World Health Organ. 2002;80(5):391-8.
Sendo Y a escala dos valores da série temporal e X a escala de tempo, a reta de melhor ajuste entre os pontos da série temporal, ou um trecho para o qual se pretende estimar a tendência, é definida pela seguinte equação:
Na Fórmula 1, o valor b0 corresponde à interseção entre a reta e o eixo vertical; o valor b1 corresponde à inclinação da reta. Para cada mudança de uma unidade na escala de X, o valor de Y é acrescido de b1 unidades. Porém, o valor bruto da variação é expresso em unidades, o que dificulta sua comparação com fatores medidos em escalas diferentes. Nesse sentido, é preferível estimar a taxa percentual de variação.
Para mensurar a taxa de variação da reta que ajusta os pontos da série temporal, aplica-se a transformação logarítmica dos valores de Y, o que propicia vantagens adicionais para a análise de regressão linear, como a redução da heterogeneidade de variância dos resíduos da análise de regressão.
Sendo X1, X2, ..., Xi, ..., Xn os períodos para os quais foram tomadas as medidas Y1, Y2, ..., Yi, ..., Yn; então, para qualquer período Xi e seu subsequente Xi+1, temos:
Diferenciando os termos destas duas equações:
Como Xi+1 e Xi são períodos (dias, meses, anos) subsequentes, sua diferença é sempre igual a um. E por propriedades da álgebra de logaritmos:
Subtraindo 1 de ambos os lados da equação:
Contudo, (Yi+1-Yi)/Yi é justamente a taxa de mudança, pois foi dimensionada para um período genérico 'i'. Basta, então, estimar o valor de b1 para inferir a taxa de mudança anual (mensal ou diária) da medida de interesse. Observe-se que essa taxa pode-se apresentar como proporção ou porcentagem. Se for positiva, a série temporal é crescente, se for negativa é decrescente, e será estacionária se não houver diferença significante entre seu valor e zero. Como b1 é estimado por regressão linear, deve-se aplicar o intervalo de confiança desse coeficiente na Fórmula 2, para se calcular o intervalo de confiança da medida. Com isso, teremos uma expressão sintética para a estimação quantitativa da tendência. A sigla APC refere-se ao termo usual em inglês (annual percent change) e IC refere-se ao intervalo de confiança:
Exemplificando a aplicação da Fórmula 2, a porcentagem de crescimento anual da mortalidade por câncer de boca e orofaringe em negros da cidade de São Paulo-SP no período de 2003 a 2009 foi estimada em 9,44% (IC95%: 5,49% a 12,93%).1010. Antunes JLF, Toporcov TN, Biazevic MGH, Boing AF, Bastos JL. Gender and racial inequalities in trends of oral cancer mortality in Sao Paulo, Brazil. Rev Saude Publica. 2013 Jun;47(3):470-8. No entanto, a medida relativa a brancos manteve-se estacionária no mesmo período: -1,05% (IC95%: -4,40% a 2,41%). Essa diferença foi considerada injusta, desnecessária e evitável, atendendo, portanto, à definição de 'iniquidade em saúde'.1111. Whitehead M. The concepts and principles of equity and health. Copenhagen: World Health Organization; 1985. (European health for all series; no. 1).
O estudo supracitado utilizou apenas sete pontos (2003-2009) e mesmo assim conseguiu identificar tendências estatisticamente significantes. Não se recomenda analisar séries com menos pontos que esses, pois as tendências tendem a ser não significantes. Quando o número de pontos é muito reduzido, o pequeno poder estatístico da análise de regressão tende a dificultar a identificação de uma tendência significante, seja crescente ou decrescente.
O valor de b1 é estimado por regressão linear; não por regressão linear simples, por se tratar de um procedimento que não se presta à análise de séries temporais, em função da autocorrelação serial que, frequentemente, ocorre em medidas de dados populacionais. É preciso empregar procedimentos de análise de regressão linear generalizada especialmente delineados para essa finalidade. O mais utilizado é o método de Prais-Winsten,1212. Prais SJ, Winsten CB. Trend estimators and serial correlation . Chicago: Cowles Commission; 1954. (CCDP statistics; no. 383). facilmente executável em softwares de análise estatística como Stata e SPSS.
A autocorrelação serial é definida99. Gaynor PE, Kirkpatrick RC. Introduction to time series modeling and forecasting in business and economics. New York: McGraw-Hill; 1994. pela dependência de uma medida seriada com seus próprios valores em momentos anteriores. Para avaliar sua manifestação, Durbin e Watson1313. Durbin J, Watson GS. Testing for serial correlation in least squares regression: I. Biometrika. 1950 Dec;37(3-4):409-28. propuseram uma estatística facilmente encontrada nas rotinas de séries temporais dos softwares de análise estatística. Essa medida varia de 0 (indicando máxima autocorrelação positiva) a 4 (máxima autocorrelação negativa); valores próximos de 2 indicam ausência de autocorrelação serial.
A autocorrelação serial rompe com uma das principais premissas da análise de regressão linear simples: a independência dos resíduos. A despeito dessa observação, todavia é bastante frequente encontrar na literatura estudos que aplicam regressão linear simples para estimar tendências em séries temporais.
Ainda assim, tal restrição não constitui mera formalidade. Quando há autocorrelação serial, isto é, praticamente sempre que se trata de medidas expressando fenômenos sociais, a utilização de regressão linear simples pode induzir erro de interpretação. A autocorrelação tem como efeito superestimar severamente as medidas de qualidade de ajuste. Com isso, a estimativa de tendência, baseada no coeficiente b1 da análise de regressão, tende a ser significante (p<0,05 ou intervalos de confiança excluindo o zero) na regressão linear simples, suscitando interpretações incorretas de crescimento ou declínio, quando a regressão linear generalizada indicaria tendência estacionária.
Observa-se, ainda, que operações sobre o eixo das abscissas, como centralizar o ano, não geram qualquer impacto sobre a medida de b1, apenas modificam o intercepto (b0). Nesse sentido, a operação de centralizar o ano não modifica a autocorrelação serial e não pode ser usada como justificativa para a aplicação de regressão linear simples na análise de séries temporais.
Modelar sazonalidade
As variações sazonais podem ser aferidas por medidas diárias, semanais ou mensais. É preciso notar que há alguma irregularidade na forma de registro do tempo, nas avaliações de sazonalidade.
Se as medidas forem diárias, há irregularidade nos anos bissextos. Para medidas mensais, os meses do calendário podem ser enumerados sequencialmente, mas não têm o mesmo número de dias. Para dados semanais, utiliza-se a definição de semanas epidemiológicas1414. Arias JR. What is an epidemiological week and why do we use them? Skeeter. 2006 Apr;66(1):7. para contornar a divisão não exata do ano em semanas. Cada semana epidemiológica começa no domingo e termina no sábado, e a primeira semana do ano termina no primeiro sábado, desde que tenha ao menos quatro dias em janeiro. Há rotinas nos softwares de análise estatística para organizar dias em semanas epidemiológicas.
Para identificar se há variação sazonal, é preciso decompor99. Gaynor PE, Kirkpatrick RC. Introduction to time series modeling and forecasting in business and economics. New York: McGraw-Hill; 1994. a série temporal, isolando o componente e verificando se atende à hipótese de significância estatística. Essa decomposição usa a equação de regressão linear com dois componentes, um para indicar tendência e outro para sazonalidade.
Na Fórmula 3, Yi é a medida da série temporal para cada momento genérico 'i' e Xi é a numeração sequencial dos momentos de tomada da medida (dia, semana, mês), π é a conhecida constante 3,141592654... e L é uma constante relativa à forma da medida: 12 para medidas mensais, 52 para semanais e 365 para diárias. O coeficiente b0 é o intercepto da equação de regressão, b1 é o estimador da tendência, e b2 e b3 são os coeficientes que modelam a sazonalidade.
Se os coeficientes b2 (seno) e/ou b3 (cosseno) do termo sazonal forem estatisticamente diferentes de zero (p<0,05), conclui-se que há variação sazonal significante. Conclui-se que a variação sazonal observada em uma série temporal pode ser atribuída ao acaso quando ambos os coeficientes não diferem estatisticamente de zero no teste de hipótese (p>0,05).
Quando a série temporal usar dados diários ou semanais, o maior número de pontos permite maior poder estatístico para a análise de regressão linear. Pode-se, então, incluir um segundo termo harmônico para sazonalidade. A Fórmula 4 apresenta a nova equação, sendo b4 e b5 os coeficientes que definem o segundo harmônico.
A curva dos valores Yi estimados pela Fórmula 4, bem como sua qualidade de ajuste aos valores observados, pode ser identificada na Figura 4. O primeiro harmônico (b2 e b3) corresponde à "barriga" mais elevada da curva, enquanto o segundo harmônico (b4 e b5) corresponde à "barriga" mais baixa observada entre as mais elevadas.
O limiar epidêmico indicado na Figura 4 pode ser calculado como função (Fórmula 5) de Yi. O limiar epidêmico (Zi) serve para compor o diagrama de controle da série temporal, e para reconhecer a emergência de surtos sempre que os valores observados superarem o limiar epidêmico por duas ou mais semanas consecutivas.1515. Antunes JL, Waldman EA, Borrell C, Paiva TM. Effectiveness of influenza vaccination and its impact on health inequalities. Int J Epidemiol. 2007 Dec;36(6):1319-26. O limiar epidêmico é calculado como a soma dos valores estimados e o produto de 1,645 (valor de 'z' na distribuição normal, que corresponde a 95% de probabilidade de não ocorrerem valores ainda mais elevados) e o desvio-padrão dos valores estimados a cada semana.
Exemplificando a aplicação das fórmulas 4 e 5, um estudo1515. Antunes JL, Waldman EA, Borrell C, Paiva TM. Effectiveness of influenza vaccination and its impact on health inequalities. Int J Epidemiol. 2007 Dec;36(6):1319-26. modelou a mortalidade de idosos por pneumonia e gripe em São Paulo-SP, de 1993 a 2002, comparando quatro anos antes e quatro anos depois do início das campanhas regulares de vacinação contra a gripe na cidade. Ao quantificar o número e a duração dos surtos de gripe nos dois períodos, bem como a mortalidade associada a esses surtos, seus autores puderam concluir que a vacinação foi efetiva não apenas para reduzir a mortalidade como também para atenuar a desigualdade nesse desfecho entre os estratos sociais.
De modo análogo à estimação da tendência, reitera-se, para as fórmulas 3 e 4, a indicação de não se utilizar regressão linear simples, pois um dos requisitos para essa modalidade de análise é o de que os resíduos da equação de regressão sejam independentes, o que dificilmente ocorre com medidas populacionais organizadas em séries temporais.
Esse método de avaliação da sazonalidade foi originalmente proposto por Serfling1616. Serfling RE. Methods for current statistical analysis of excess pneumonia-influenza deaths. Public Health Rep. 1963 Jun;78(6):494-506. para modelar medidas populacionais da gripe. Sua formulação original requisitava 260 pontos para modelagem, correspondendo a medidas semanais durante cinco anos. Esse número é elevado o suficiente para aproximar bastante os resultados da regressão linear simples e da regressão linear generalizada. Justifica-se, portanto, a opção do autor pelo procedimento mais simples em um período quando não havia as facilidades computacionais contemporâneas.
Não obstante, reitera-se a indicação do procedimento de Prais-Winsten também para modelar sazonalidade. A autocorrelação serial pode induzir erro de interpretação, fazendo com que variações pouco expressivas tendam a ser indevidamente indicadas como significantes, e esse efeito será tanto mais sensível quanto menor o número de pontos incluídos na série.
Séries temporais interrompidas e análise de regressão segmentada
A análise de séries temporais interrompidas foi considerada o mais efetivo recurso não experimental para avaliar o efeito longitudinal de intervenções.1717. Penfold RB, Zhang F. Use of interrupted time series analysis in evaluating health care quality improvements. Acad Pediatr. 2013 Nov-Dec;13(6 Suppl):S38-44. Entretanto, sua aplicação não se restringe a isso, servindo também para testar hipóteses sobre fatores que modificam o comportamento no tempo das medidas de interesse para a saúde.
Essa análise pressupõe segmentar, algébrica e graficamente, a série temporal. O método sintetizado a seguir foi sistematizado por Wagner e cols.1818. Wagner AK, Soumerai SB, Zhang F, Ross-Degnan D. Segmented regression analysis of interrupted time series studies in medication use research. J Clin Pharm Ther. 2002 Aug;27(4):299-309. Dois parâmetros definem cada segmento da série: nível e tendência. O nível é o valor inicial da série em cada segmento; e a tendência, a mudança percentual dos valores ao longo do período compreendido pelo segmento.
A ideia é avaliar se, quando ocorre uma intervenção, há impacto imediato (mudança de nível) e/ou impacto progressivo (mudança de tendência) nos valores da série. Para fins práticos, vamos chamar de "degrau" à mudança de nível (impacto imediato) e de "rampa" à mudança de tendência (impacto progressivo), termos que correspondem a mudanças perceptíveis nas representações gráficas das séries temporais.
Tomando a Fórmula 1 como referência, a Fórmula 6 sintetiza a análise de regressão segmentada com dois e três segmentos. É possível incluir mais segmentos, se houver número suficiente de observações (ao menos oito pontos para cada segmento). Também é possível incluir os termos da avaliação de sazonalidade (fórmulas 3 e 4).
A variável "degrau" é construída de modo dicotômico, com 0 (zero) nos pontos anteriores à intervenção e 1 na vigência da intervenção, isto é, após o início do segmento. A variável 'rampa' mede o tempo após a intervenção, sendo construída com 0 (zero) nos pontos que antecedem a intervenção e valores sequenciais - 1,2,3... - após o início do segmento. O procedimento é análogo quando se utilizam três ou mais segmentos.
Em seguida, basta encontrar os coeficientes da regressão Prais-Winsten que ajustam os pontos da série ao degrau e à rampa. Degraus estatisticamente significantes ocorrem quando a intervenção tem impacto (positivo ou negativo) imediato sobre a série. De modo independente ou conjugado, rampas estatisticamente significantes ocorrem quando a intervenção tem impacto (positivo ou negativo) progressivo sobre a série. Quando nenhuma das duas medidas é significante, interpreta-se a intervenção (ou o fator que está sendo testado) como não associado à série temporal.
Exemplificando a aplicação da Fórmula 6, observa-se que a série temporal da mortalidade infantil em São Paulo-SP (Figura 3) apresenta três segmentos. O primeiro, até 1960, mostra tendência decrescente e forte variação aleatória. O segundo corresponde ao crescimento observado de 1961 a 1973; e o terceiro, à subsequente retomada do declínio.
A análise de regressão (Fórmula 6) fornece os coeficientes para aplicação na Fórmula 2, estimando a taxa de mudança anual. No primeiro segmento houve declínio, medido por b1: -1,92% (IC95%: -2,25%;-1,59%) ao ano. Por meio de b3, identifica-se o progressivo incremento de 3,96% (IC95%: 1,21%;6,77%) ao ano no segundo segmento. No terceiro segmento (b5), houve retomada do declínio, com maior intensidade: -7,75% (IC95%: -10,64%;-4,76%) ao ano. Os coeficientes b2 e b4 não diferiram significantemente de zero (respectivamente, p=0,163 e p=0,488), indicando que não houve mudança de nível (degrau) na transição do primeiro para o segundo e do segundo para o terceiro segmento.
Considerações finais
Antever o futuro é uma primeira e óbvia aplicação da análise de séries temporais. De fato, essa análise propicia a previsão dos valores futuros da série. Contudo, a incerteza sobre estimativas futuras é tanto maior quanto mais se distancia do presente, e intercorrências inesperadas são mais ou menos frequentes nas atividades humanas, o que implica risco adicional de erro não previsto.
Para variáveis quantitativas, é sempre possível conhecer os valores passados, não os futuros. Afora isso, nada diferencia tecnicamente a previsão do futuro da previsão do passado. Uma segunda aplicação do instrumental de análise das séries temporais refere-se à previsão do passado, o que, embora pareça estranho e desnecessário, tem várias aplicações epidemiológicas. A mortalidade por tuberculose em São Paulo foi modelada para inferir a persistência do declínio na década de 1980, caso não houvesse emergido a síndrome da imunodeficiência adquirida - aids.1919. Antunes JLF, Waldman EA. Tuberculosis in the twentieth century: time-series mortality in São Paulo, Brazil, 1900-97. Cad Saude Publica. 1999 Jul-Sep;15(3):463-76. E a ocupação de leitos hospitalares durante surto de SARS em Singapura foi modelada com o intuito de instruir os serviços de saúde para enfrentar esse tipo de intercorrência.2020. Earnest A, Chen MI, Ng D, Sin LY. Using autoregressive integrated moving average (ARIMA) models to predict and monitor the number of beds occupied during a SARS outbreak in a tertiary hospital in Singapore. BMC Health Serv Res. 2005 May;5:36. Costuma-se modelar a mortalidade passada por gripe e pneumonia para projetar o diagrama de controle e inferir a ocorrência dos surtos de gripe.55. Oliveira JFM, Boing AF, Waldman EA, Antunes JLF. Ecological study on mortality from influenza and pneumonia before and after influenza vaccination in the Northeast and South of Brazil. Cad Saude Publica. 2013 Dec;29(12):2535-45.,1515. Antunes JL, Waldman EA, Borrell C, Paiva TM. Effectiveness of influenza vaccination and its impact on health inequalities. Int J Epidemiol. 2007 Dec;36(6):1319-26.,1616. Serfling RE. Methods for current statistical analysis of excess pneumonia-influenza deaths. Public Health Rep. 1963 Jun;78(6):494-506.
A previsão de valores futuros ou passados pode ser feita por regressão linear, considerando-se o melhor ajuste dos pontos da série. A previsão também pode utilizar procedimentos estatísticos mais complexos, como o método ARIMA (autoregressive integrated moving average), cuja aplicação demanda treinamento especializado adicional.2020. Earnest A, Chen MI, Ng D, Sin LY. Using autoregressive integrated moving average (ARIMA) models to predict and monitor the number of beds occupied during a SARS outbreak in a tertiary hospital in Singapore. BMC Health Serv Res. 2005 May;5:36.
Há, ainda, uma terceira forma de antever o futuro, a partir da análise de séries temporais. Em vez de focalizar os valores que as variáveis quantitativas assumirão no futuro, essa terceira forma refere-se ao reconhecimento dos padrões de variação da medida. Quando esses padrões são conhecidos, sabe-se o que pode contribuir para o incremento ou decréscimo da medida analisada.
Passamos a conhecer como determinado processo se comportará quando conseguirmos caracterizar sua tendência, reconhecer sua variação sazonal e cíclica, dimensionar sua variação aleatória e identificar os fatores associados, responsáveis pelo impacto significante sobre suas medidas.
Esse conhecimento sobre a estrutura de variação das séries temporais não deixa de ser uma forma de antever o futuro. Se fosse possível separar as alternativas e escolher entre uma boa estimativa de variáveis de interesse para a saúde ou conhecer com precisão os processos que determinam sua variação, possivelmente os profissionais de saúde inclinar-se-iam pela segunda opção.
- 1Wiener N. Extrapolation, interpolation and smoothing of stationary time series. Cambridge: MIT Press; 1966.
- 2Porta M. A dictionary of epidemiology. 6th ed. New York: Oxford University Press; 2014.
- 3Antunes JLF. "Grow and multiply": social development, birth rates and demographic transition in the Municipality of São Paulo, Brazil, time series for 1901-94. Rev Bras Epidemiol. 1998 Apr;1(1):61-78.
- 4Gouveia N, Hajat S, Armstrong B. Socioeconomic differentials in the temperature-mortality relationship in São Paulo, Brazil. Int J Epidemiol. 2003 Jun;32(3):390-7.
- 5Oliveira JFM, Boing AF, Waldman EA, Antunes JLF. Ecological study on mortality from influenza and pneumonia before and after influenza vaccination in the Northeast and South of Brazil. Cad Saude Publica. 2013 Dec;29(12):2535-45.
- 6Waldman EA, Rosa TEC. Vigilância em saúde pública. Vol. 7. São Paulo: Universidade de São Paulo; 1998. (Série saúde & cidadania).
- 7Antunes JLF, Waldman EA. Trends and spatial distribution of deaths of children aged 12-60 months in São Paulo, Brazil, 1980-98. Bull World Health Organ. 2002;80(5):391-8.
- 8Becketti S. Introduction to time series using Stata. College Station: Stata Press; 2013.
- 9Gaynor PE, Kirkpatrick RC. Introduction to time series modeling and forecasting in business and economics. New York: McGraw-Hill; 1994.
- 10Antunes JLF, Toporcov TN, Biazevic MGH, Boing AF, Bastos JL. Gender and racial inequalities in trends of oral cancer mortality in Sao Paulo, Brazil. Rev Saude Publica. 2013 Jun;47(3):470-8.
- 11Whitehead M. The concepts and principles of equity and health. Copenhagen: World Health Organization; 1985. (European health for all series; no. 1).
- 12Prais SJ, Winsten CB. Trend estimators and serial correlation . Chicago: Cowles Commission; 1954. (CCDP statistics; no. 383).
- 13Durbin J, Watson GS. Testing for serial correlation in least squares regression: I. Biometrika. 1950 Dec;37(3-4):409-28.
- 14Arias JR. What is an epidemiological week and why do we use them? Skeeter. 2006 Apr;66(1):7.
- 15Antunes JL, Waldman EA, Borrell C, Paiva TM. Effectiveness of influenza vaccination and its impact on health inequalities. Int J Epidemiol. 2007 Dec;36(6):1319-26.
- 16Serfling RE. Methods for current statistical analysis of excess pneumonia-influenza deaths. Public Health Rep. 1963 Jun;78(6):494-506.
- 17Penfold RB, Zhang F. Use of interrupted time series analysis in evaluating health care quality improvements. Acad Pediatr. 2013 Nov-Dec;13(6 Suppl):S38-44.
- 18Wagner AK, Soumerai SB, Zhang F, Ross-Degnan D. Segmented regression analysis of interrupted time series studies in medication use research. J Clin Pharm Ther. 2002 Aug;27(4):299-309.
- 19Antunes JLF, Waldman EA. Tuberculosis in the twentieth century: time-series mortality in São Paulo, Brazil, 1900-97. Cad Saude Publica. 1999 Jul-Sep;15(3):463-76.
- 20Earnest A, Chen MI, Ng D, Sin LY. Using autoregressive integrated moving average (ARIMA) models to predict and monitor the number of beds occupied during a SARS outbreak in a tertiary hospital in Singapore. BMC Health Serv Res. 2005 May;5:36.
Datas de Publicação
- Publicação nesta coleção
Jul-Sep 2015