ARTIGO ARTICLE
Relacionamento probabilístico de registros: uma aplicação na área de morbidade materna grave (near miss) e mortalidade materna
Probabilistic record linkage: an application to severe maternal morbidity (near miss) and maternal mortality
Maria Helena de SousaI; José Guilherme CecattiI; Ellen HardyI; Suzanne Jacob SerruyaII
IFaculdade de Ciências Médicas, Universidade Estadual de Campinas, Campinas, Brasil
IIDepartamento de Ciência e Tecnologia, Ministério da Saúde, Brasília, Brasil
RESUMO
Apresentar uma experiência de relacionamento do Sistema de Informações Hospitalares (SIH) com o Sistema de Informações sobre Mortalidade (SIM), e do SIH com ele próprio, aplicados na área de morbidade materna grave (near miss) e mortalidade materna. Trata-se de um estudo empírico, utilizando-se dados brasileiros das capitais de estados e do Distrito Federal em 2002. Para os dois relacionamentos, aplicados separadamente em cada uma das capitais, estabeleceu-se estratégia de blocagem em três passos simples, bem como a de múltiplos passos relacionados, e duas de revisão manual. Do total de pares verdadeiros dos dois relacionamentos, menos de 8% não puderam ser localizados pelos passos simples, enquanto que a estratégia de múltiplos passos deixou de localizar apenas 0,7%. Foi possível explorar o assunto de mortalidade e morbidade materna grave nos bancos de dados. O número de pares formados e revisados sob a estratégia de múltiplos passos foi inferior à soma dos pares nos três passos simples e, além disso, menos pares foram perdidos. Porém, para o relacionamento do SIH com ele próprio, sugerem-se as duas estratégias.
Sistemas de Informação; Mortalidade Materna; Morbidade
ABSTRACT
This article presents an experience with record linkage from the Brazilian Hospital Information System (SIH) with the Mortality Information System (SIM), and the SIH with itself, applied to severe maternal morbidity (near miss) and maternal mortality. This was an empirical study using Brazilian data for the state capitals and Federal District in 2002. For the two linkages separately applied in each capital, a three simple step blocking strategy was established, plus related multiple steps and also two clerical review strategies. From the total number of true pairs found after the two linkages, simple steps failed to find fewer than 8%, while the multiple step strategy failed to find only 0.7%. This approach allowed exploring the issue of severe maternal morbidity and mortality in these databases. The number of pairs found and reviewed under the multiple steps strategy was lower than the sum of pairs obtained with the three simple steps, and fewer pairs were lost. However, for the record linkage of the SIH with itself, both strategies are suggested.
Information Systems; Maternal Mortality; Mosidity
Introdução
Em 1946, Dunn 1 publicou, em um periódico de saúde pública, um artigo em que o termo record linkage foi abordado pela primeira vez. O autor fez uma analogia entre a história de vida de uma pessoa e um livro, cujo início e fim corresponderiam, respectivamente, ao nascimento e ao óbito da mesma: record linkage seria o processo necessário para reunir as páginas deste livro em um único volume.
Alguns anos depois, Newcombe et al. 2 publicaram um artigo sobre o tema, apresentando resultados de um estudo em que aplicaram record linkage a dados de registros vitais. Abordaram pela primeira vez o tópico de cálculo das probabilidades e o logaritmo de base 2 das mesmas, como parte da teoria de informação. Uma década depois, Fellegi & Sunter 3 produziram uma extensa teoria sobre record linkage.
Apesar da base teórica envolvida em record linkage, destaca-se que o enfoque principal refere-se à aplicação puramente prática, quando se tem, por exemplo, registros de dois bancos de dados (arquivos): um na área da saúde e outro na área de dados vitais, cujas informações necessitam ser confrontadas, com o objetivo de se estabelecer a correspondência ou não dos pares de registros, cada um deles proveniente de um dos arquivos.
Em geral o record linkage é realizado com o intuito de obter apenas um banco de dados, combinando as informações parciais existentes em cada arquivo original para obtenção de um arquivo único completo, ou com o objetivo de construir e manter um arquivo mestre com informações atualizadas 3.
Tal processo seria relativamente simples e direto se houvesse um campo que identificasse inequivocamente cada registro como, por exemplo, um número de identificação único por indivíduo ou vários campos que, juntos, permitissem identificar os registros de uma mesma pessoa. Nessa situação, os arquivos poderiam ser confrontados utilizando-se o chamado relacionamento determinístico 4. Uma possibilidade futura nesse sentido para o Brasil, é a adoção do já recomendado registro único de saúde ou número SUS 5, a exemplo do que já acontece em países desenvolvidos como Suécia, Noruega e Dinamarca 4.
No Brasil, dada a inexistência desse campo único nos arquivos de saúde, a identificação direta é impossível de ser realizada. Dessa forma, faz-se necessário utilizar diversas informações menos específicas, procurando-se estabelecer o quão provável um par de registros corresponde a um mesmo indivíduo ou unidade de análise. Trata-se do chamado relacionamento probabilístico, anteriormente mencionado, que foi primeiramente abordado por Newcombe et al. 2 e posteriormente por Fellegi & Sunter 3.
Machado 4, em revisão sobre record linkage determinístico e probabilístico, com aplicação na área de saúde infantil, apresentou as linhas que diversos países têm seguido nestes dois tipos de relacionamento. O Brasil, apesar de ter sido referido como o único país em desenvolvimento que tem abordado o tema, ainda está em estágios iniciais de estudos.
A concreta utilização das fontes de dados do Ministério da Saúde brasileiro, por meio de seus diversos sistemas de informações de rotina (entre eles o de mortalidade, o de nascidos vivos e o de informações hospitalares), implicaria uma promissora área de pesquisa aplicada, incluindo a avaliação da qualidade destes sistemas. Entretanto, apesar da existência desses bancos de dados eletrônicos do sistema brasileiro de saúde, que estão facilmente disponíveis 6, os mesmos não apresentam informações de identificação dos registros, por questões de ética e sigilo. Portanto, campos como nome e endereço não são disponibilizados. Dessa forma, o método de relacionamento probabilístico somente poderia ser utilizado se informações de identificação pudessem ser obtidas.
Para operacionalizar essa necessidade, Camargo Jr. & Coeli 7 desenvolveram um programa chamado RecLink II, que executa o relacionamento probabilístico de registros, quando se tem diversos campos em comum para serem comparados. Esse programa é de domínio público, sendo obtido na Internet (http://paginas.terra.com.br/educacao/kencamargo/RecLink.html).
O objetivo do presente estudo foi apresentar uma experiência empírica de relacionamento do Sistema de Informações Hospitalares (SIH) com o Sistema de Informações sobre Mortalidade (SIM), e do SIH com ele próprio, utilizando-se diferentes critérios nas etapas de blocagem e de revisão manual, e simultaneamente verificar a possibilidade de explorar a morbidade materna grave (near miss) e mortalidade materna nestes bancos de dados de informações rotineiras em saúde disponíveis no Brasil.
Método
Tratou-se de um estudo empírico explorando as possibilidades metodológicas de relacionamento de bancos de dados para a extração de informações relativas a indivíduos comuns, com base em dados brasileiros do SIH e do SIM. Os arquivos SIH e SIM, com dados para as capitais de estados e o Distrito Federal em 2002, foram especialmente obtidos do Departamento de Informática do SUS (DATASUS) e da Secretaria de Vigilância em Saúde (SVS) do Ministério da Saúde, respectivamente. Esses arquivos continham informações que permitiram identificar as mulheres (como nome e data de nascimento) para fins de relacionamento dessas bases de dados. Este estudo foi aprovado pelo Comitê de Ética em Pesquisa da Faculdade de Ciências Médicas da Universidade Estadual de Campinas (parecer nº. 147/2004). Foi resguardado o sigilo do nome de cada pessoa identificada.
Com base no SIH houve uma seleção inicial de registros de internações de mulheres de 10 a 49 anos de idade, seguida de uma seleção daqueles que apresentaram pelo menos um item indicativo de morbidade materna grave (near miss). Esta última seleção baseou-se em uma lista previamente elaborada, baseada fundamentalmente nos critérios internacionalmente recomendados e originários dos estudos de Mantel et al. 8 e de Waterstone et al. 9. Para os dados do SIM houve a seleção de registros de mulheres de 10 a 49 anos de idade. Na seqüência, foram separados os registros das 26 capitais de estados e do Distrito Federal, para cada um dos dois sistemas.
Os campos principais utilizados para os relacionamentos foram o nome e a data de nascimento. O programa utilizado para o relacionamento probabilístico dos sistemas foi o RecLink II 7. Esse programa é dividido em várias etapas seqüenciais: padronização dos bancos de dados; relacionamento propriamente dito (subdividido em blocagem e pareamento); combinação dos arquivos e revisão manual. A primeira etapa faz-se necessária apenas uma vez, enquanto as demais são repetidas em vários passos, para diferentes chaves de blocagem, de acordo com o estabelecido pela avaliação subjetiva do pesquisador.
A padronização dos arquivos envolveu a transformação de todos os caracteres para letra maiúscula, a exclusão de acentos, bem como a eliminação das preposições "de", "da", "do", "dos", "das" e de sinais de pontuação erroneamente digitados. Também permitiu a subdivisão dos campos nome e data de nascimento, cujas partes foram utilizadas na etapa seguinte de blocagem e de pareamento.
Para os dois relacionamentos (SIH vs. SIM e SIH vs. SIH), aplicados separadamente em cada uma das capitais, estabeleceu-se estratégia de blocagem em três passos simples, bem como estratégia de blocagem em múltiplos passos relacionados. As chaves de blocagem utilizadas nos passos simples foram: (1) código fonético (Soundex) do primeiro nome formatado para blocagem Pbloco; (2) código fonético (Soundex) do último nome formatado Ubloco; e (3) ano de nascimento Anonas. A estratégia de múltiplos passos relacionados apresentou um passo inicial, denominado Pi, com uma chave mais restrita envolvendo o código fonético do primeiro e último nomes e o ano de nascimento, ou seja, Soundex(Pbloco) + Soundex(Ubloco) + Anonas. Após esse passo inicial, foram utilizadas as três chaves isoladamente, em etapas sucessivas e dependentes das anteriores (com exclusão de pares já localizados anteriormente). Para o segundo relacionamento, do SIH com ele mesmo (para localização de reinternações de uma mesma pessoa), aplicaram-se mais dois passos extras (denominado P[E]), com o nome completo e endereço residencial como chaves de blocagem complementares e utilizando-se o arquivo original, sem exclusões.
Os fatores de ponderação de concordância e discordância, para o cálculo dos escores 3, são obtidos respectivamente pelas seguintes equações: log2(mi/ui) e log2[(1-mi)/(1-ui)], em que mi é a probabilidade dos campos concordarem dado que se trata de par verdadeiro (equivalente à sensibilidade); ui é a probabilidade dos campos concordarem dado que se trata de par falso (1-especificidade), (1-mi) refere-se ao complementar da sensibilidade e, finalmente, (1-ui) equivale à especificidade. Neste estudo, para a composição do escore total de cada par, foram utilizados valores sugeridos por Camargo Jr. & Coeli (http://paginas.terra.com.br/educacao/kencamargo/RecLink.html) para vários campos na etapa de pareamento. Esses campos, com o algoritmo de comparação, bem como os valores de mi e ui utilizados para o cálculo dos escores constam da Tabela 1.
Exemplificando o cálculo do escore total na situação de concordância completa do primeiro nome, último nome, inicial(is) do(s) nome(s) do meio e data de nascimento, o escore máximo será obtido por meio da soma apenas dos fatores de ponderação de concordância, ou seja, log2(mi/ui). Portanto, nesse caso teremos a soma que resultará em aproximadamente 25,3: log2(99/2) + log2(99/3) + log2(89/3) + log2(91/10) + log2(94/23) + log2(92/4), cujas parcelas correspondem, respectivamente, aos escores dos campos: primeiro nome, último nome, inicial(is) do(s) nome(s) do meio, dia, mês e ano de nascimento.
Após a combinação dos arquivos pelo RecLink II, chegou-se à etapa final de revisão manual dos pares combinados. Apesar de existirem fórmulas para estimativa de valores limiares 3, como sua determinação não é simples e direta, decidiu-se neste estudo avaliar empiricamente os escores positivos mais altos, em detrimento daqueles mais baixos.
Com isso, a revisão manual inicial da junção SIH vs. SIM ocorreu para todos os pares cujos escores foram iguais ou maiores que 18; os nomes foram verificados (especialmente o primeiro e o segundo nomes); se houvesse dúvida, as datas de nascimento eram verificadas; se ainda necessário, a data de saída pelo SIH era confrontada com a data do óbito pelo SIM. Também foi feita uma revisão manual de escores iguais ou maiores que 1 e inferiores a 18, porém com seleção de pares que tinham datas de nascimento idênticas nos dois sistemas, mas com data de saída pelo SIH igual ou inferior à data do óbito pelo SIM, ou que tinham datas de nascimento diferentes, porém com data de saída pelo SIH igual à data do óbito pelo SIM; o principal campo verificado foi o nome (especialmente o primeiro e o segundo) e, se necessário, as datas de nascimento eram observadas, bem como as datas de saída (SIH) e de óbito (SIM), se as mesmas eram próximas.
A revisão manual inicial da junção SIH vs. SIH (o arquivo com ele mesmo), para localização de várias internações de uma mesma pessoa, ocorreu inicialmente para os pares cujos escores foram iguais ou maiores que 17, verificando-se principalmente os nomes e as datas de nascimento. Também foi feita uma revisão manual de registros cujos escores resultaram iguais ou maiores que 1 e inferiores a 17, porém com seleção de pares que tinham pelo menos dois dos três dia, mês e ano de nascimento iguais e a diferença entre a data de internação no segundo arquivo e a data de saída no primeiro arquivo não ultrapassasse trinta dias; ou que as datas de nascimento fossem idênticas nos dois sistemas, mas as datas de saída fossem diferentes; ou que tivessem datas de nascimento diferentes, mas com as datas de saída iguais nos dois arquivos. Para os dois passos extras, a faixa de escore para verificação manual ficou compreendida entre -5 e 20.
Utilizou-se análise descritiva simples, para os dois relacionamentos (SIH vs. SIM e SIH vs. SIH), e os programas computacionais usados foram o RecLink II e o SPSS versão 11.5 (SPSS Inc., Chicago, Estados Unidos).
Resultados
Para o primeiro relacionamento, do SIH com o SIM, e com estratégia de passos simples, houve a formação mínima de quase um milhão de pares sob a terceira estratégia de blocagem (passo 3), e a máxima de mais de dois milhões de pares, sob a segunda (passo 2). Do total de 151 pares verdadeiros, 4 (2,6%) não foram localizados no passo 1; 11 (7,3%) no passo 2 e; 6 (4%) no passo 3. A capital que apresentou maior número de pares formados e revisados manualmente, pelas três estratégias, foi São Paulo (Tabela 2).
Com a aplicação da estratégia de múltiplos passos relacionados, 132 (87,4%) dos 151 pares foram localizados no passo inicial, com a chave mais restrita, enquanto que 18 foram localizados em algum dos três passos seguintes, e apenas um par (0,7%), de Fortaleza (Estado do Ceará), não foi localizado após todo o processo múltiplo (Tabela 3).
No segundo linkage, do SIH com ele mesmo, para os 1.405 pares verdadeiros em todas as capitais, 45 (3,2%) não foram encontrados no passo 1; 87 (6,2%) no passo 2 e; 75 (5,3%) no passo 3. Novamente, a capital que apresentou o maior número de pares formados e revisados foi São Paulo (Tabela 4).
Após a aplicação dos múltiplos passos, verificou-se que 1.239 (88,2%) dos 1.405 pares verdadeiros foram encontrados no Pi; 137 (9,8%) em algum dos três passos seguintes; 19 (1,3%) nos dois passos extras e; apenas 10 (0,7%) não puderam ser localizados no processo completo (Tabela 5).
Discussão
O número de pares formados em cada um dos relacionamentos foi da ordem de 106, enquanto que o de pares revisados foi da ordem de 103. Enquanto as estratégias de passos simples perderam menos de 8% do total de pares verdadeiros, para os dois relacionamentos (SIH vs. SIM e SIH vs. SIH), a estratégia de múltiplos passos perdeu bem menos, ou seja, menos de 1%. Para cada um dos relacionamentos, o número de pares formados (e revisados) sob a estratégia completa de múltiplos passos foi inferior à soma dos pares formados (e revisados) nos três passos simples.
O tema de record linkage não é novo, pois a primeira publicação foi há mais de 60 anos 1. Entretanto, apesar do desenvolvimento tecnológico das últimas décadas, com equipamentos cada vez mais rápidos e modernos, o elemento humano ainda acaba envolvido no processo de revisão manual dos pares, como responsável pela decisão final sobre o pareamento ou não. Apesar da subjetividade do ser humano e da possibilidade real de se errar, a máquina não o substitui nessa etapa do relacionamento. Um estudo recente abordou o problema da tomada de decisão em pares duvidosos 10, porém não havia o nome para ser considerado como campo de blocagem e/ou pareamento, fato não ocorrido neste estudo.
Uma primeira limitação deste estudo foi o fato de não termos avaliado a qualidade dos sistemas utilizados, devido à impossibilidade operacional deste processo. Sabe-se apenas que vários casos de morte materna declarada, existentes no SIM, não foram localizados no SIH, quando a base de referência foi esta última. Outra limitação refere-se à qualidade das informações de identificação existentes nos sistemas, entre elas o nome e o endereço. Neste estudo, o campo nome parece ter sido digitado de forma padronizada, pois, por exemplo, não se verificaram muitos casos de nomes abreviados e com erros de digitação.
Um estudo que considerou um banco de dados do SIH relacionado a um inquérito domiciliar, encontrou uma baixa proporção de registros identificados nos dois arquivos e os autores sugerem que uma das razões pode ter sido a questionável qualidade do preenchimento das informações utilizadas para a identificação 11.
As estratégias de blocagem em passos simples resultaram em muitos casos formados, com um mínimo de aproximadamente um milhão. Apesar dos recursos computacionais modernos, o tempo envolvido não deveria ser desprezado. O mesmo se aplica ao tempo gasto na tarefa de revisão manual, que neste estudo não foi pouco, embora não tenha sido computado.
Sabe-se que a utilização de blocagem implica otimização do processo de relacionamento de bancos de dados 7, e que a revisão manual é um processo lento, trabalhoso, que depende da avaliação subjetiva do revisor, porém necessário nos casos duvidosos.
Segundo Coeli & Camargo Jr. 12, a estratégia de blocagem mais eficiente é a de múltiplos passos relacionados, o mesmo sendo verificado neste estudo. Entretanto, foi possível observar que na comparação do SIH com ele mesmo, para localização de reinternações de uma mesma mulher, os casos com mais de duas internações e cujos escores eram inferiores a 17 (ponto de corte utilizado) não puderam ser localizados sob a estratégia de múltiplos passos. Dessa forma, sugere-se que sejam aplicadas as duas estratégias (múltipla e simples) no caso de se relacionar um banco de dados com ele mesmo. Outro artigo derivado da exploração analítica desses mesmos bancos de dados mostra a utilização direta da estratégia de blocagem em múltiplos passos relacionados 13.
Apesar das limitações dos sistemas existentes, foi possível explorar o assunto de morbidade materna grave nos bancos de dados de informações rotineiras em saúde disponíveis no Brasil. Entretanto, convém salientar novamente que isso só foi possível porque os bancos de dados com informações de identificação foram especialmente fornecidos para este estudo, contendo estas informações não disponíveis normalmente. Embora o estudo tenha demonstrado a possibilidade da utilização desses bancos de dados para o estudo da morbidade materna grave e mortalidade materna, a dificuldade operacional encontrada permite a proposição da adoção de mecanismos de informação mais eficientes pelo sistema oficial de saúde. A proposta da utilização de um único número identificador do indivíduo no sistema seria razoável como estratégia para simplificar o processo e melhorar sua eficiência para fins de monitoramento.
Colaboradores
M. H. Sousa foi responsável pela implementação do estudo e análise estatística. Os quatro autores participaram do plano de análise. M. H. Sousa escreveu a primeira versão do artigo, complementada a seguir por J. G. Cecatti. Todos os autores discutiram, leram e aprovaram a versão final do artigo.
Agradecimentos
Este estudo foi parcialmente financiado pelo Human Reproduction Programme, World Health Organization, (projeto H9-181R862).
Referências
1. Dunn HL. Record linkage. Am J Public Health 1946; 36:1412-6.
2. Newcombe HB, Kennedy JM, Axford SJ, James AP. Automatic linkage of vital records. Science 1959; 130:954-9.
3. Fellegi IP, Sunter AB. A theory for record linkage. J Am Stat Assoc 1969; 64:1183-210.
4. Machado CJ. A literature review of record linkage procedures focusing on infant health outcomes. Cad Saúde Pública 2004; 20:362-71.
5. Ministério da Saúde. O SUS no seu município: garantindo saúde para todos. Brasília: Ministério da Saúde; 2004.
6. Fundação Nacional de Saúde/Departamento de Informática do SUS. Diretório de bases de dados. http://datasus.gov.br/dirbd/estrut.htm (acessado em 04/Abr/2003).
7. Camargo Jr. KR, Coeli CM. Reclink: aplicativo para o relacionamento de bases de dados, implementando o método probabilistic record linkage. Cad Saúde Pública 2000; 16:439-47.
8. Mantel GD, Buchmann E, Rees H, Pattinson RC. Severe acute maternal morbidity: a pilot study of a definition for a near-miss. Br J Obstet Gynaecol 1998; 105:985-90.
9. Waterstone M, Bewley S, Wolfe C. Incidence and predictors of severe obstetric morbidity: case-control study. BMJ 2001; 322:1089-93.
10. Machado CJ, Hill K. Probabilistic record linkage and an automated procedure to minimize the undecided-matched pair problem. Cad Saúde Pública 2004; 20:915-25.
11. Coeli CM, Blais R, Costa MCE, Almeida LM. Probabilistic linkage in household survey on hospital care usage. Rev Saúde Pública 2003; 37:91-9.
12. Coeli CM, Camargo Jr. KR. Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registros. Rev Bras Epidemiol 2002; 5:185-96.
13. Sousa MH, Cecatti JG, Hardy EE, Serruya SJ. Morte materna declarada e o relacionamento de sistemas de informações em saúde. Rev Saúde Pública 2007; 41:181-9.
Correspondência:
J. G. Cecatti
Departamento de Tocoginecologia
Faculdade de Ciências Médicas
Universidade Estadual de Campinas
Rua Alexander Fleming 101
Campinas, SP 13083-881, Brasil
cecatti@unicamp.br
Recebido em 18/Mai/2006
Versão final reapresentada em 14/Ago/2007
Aprovado em 13/Set/2007