Processing math: 100%

Comparação de métodos de calibração na análise de dados da Pesquisa Nacional de Saúde de 2013

Juliana Sena de Souza Márcia Helena Barbian Rodrigo Citton Padilha dos Reis Sobre os autores

RESUMO

Objetivo:

Este estudo visa comparar métodos de calibração de pesos na subamostra de Exames Laboratoriais da Pesquisa Nacional de Saúde (PNS) 2013, buscando avaliar sua representatividade e precisão.

Métodos:

Duas propostas alternativas de construção de pesos calibrados foram realizadas com base nos métodos de pós-estratificação e raking. Uma comparação entre os pesos fornecidos para a subamostra de Exames Laboratoriais e os dois pesos sugeridos foi realizada por meio de estimativas de parâmetros de interesse utilizando os dados da subamostra da PNS 2013. Além disso, foram utilizadas sete medidas para avaliar o desempenho dos sistemas de pesos propostos.

Resultados:

Os pesos de pós-estratificação e raking alternativos produziram estimativas generalizáveis para a população-alvo da PNS 2013, enquanto os pesos originais não. Os métodos alternativos apresentaram desempenho similar ao método original, com pequena vantagem para o raking em algumas medidas de avaliação.

Conclusão:

Recomenda-se que os pesos básicos de delineamento sejam documentados e incluídos nos arquivos de dados de uso público da PNS. Além disso, sugere-se o chaveamento das informações entre a amostra e a subamostra da PNS 2013 para possibilitar a exploração de métodos como a imputação de dados, visando obter estimativas mais precisas e representativas. Essas melhorias são essenciais para garantir a qualidade e utilidade dos dados da PNS em estudos epidemiológicos e de saúde coletiva.

Palavras-chave:
Estimativas populacionais; Estudos de amostragem; Estudos epidemiológicos; Estudos populacionais em saúde pública; Métodos e procedimentos estatísticos

INTRODUÇÃO

A Pesquisa Nacional de Saúde (PNS), conduzida pelo Ministério da Saúde em parceria com a Fundação Oswaldo Cruz (Fiocruz) e o Instituto Brasileiro de Geografia e Estatística (IBGE), é a pesquisa mais ampla já realizada no país sobre a situação de saúde e seus determinantes11 Malta DC, Stopa SR, Szwarcwald CL, Gomes NL, Silva Júnior JB, Reis AAC. Surveillance and monitoring of major chronic diseases in Brazil - National Health Survey, 2013. Rev Bras Epidemiol. 2015; 18(Supl. 2): 3-16. https://doi.org/10.1590/1980-5497201500060002
https://doi.org/10.1590/1980-54972015000...
, permitindo o dimensionamento do acesso ao diagnóstico e à atenção à saúde22 IBGE. Pesquisa nacional de saúde: 2013: percepção do estado de saúde, estilos de vida e doenças crônicas: Brasil, grandes regiões e unidades da federação [Internet]. Rio de Janeiro: IBGE; 2014 [cited on Sep 21, 2022]. Available at: https://biblioteca.ibge.gov.br/index.php/biblioteca-catalogo?id=291110&view=detalhes
https://biblioteca.ibge.gov.br/index.php...
e a produção de dados dos estilos de vida da população brasileira.

Um grande diferencial da PNS de 2013 foi a inclusão da coleta de material biológico (amostras de sangue e urina dos participantes) para uma subamostra de 25% dos indivíduos que responderam à primeira fase da pesquisa, o que permitiu a realização de exames laboratoriais e a elaboração de estudos referentes à prevalência de anemia, colesterol total, insuficiência renal e diabetes, além de outros temas e fatores associados da população brasileira33 Machado IE, Malta DC, Bacal NS, Rosenfeld LGM. Prevalence of anemia in Brazilian adults and elderly. Rev Bras Epidemiol. 2019; 22(Supl. 2): E190008.Supl.2. https://doi.org/10.1590/1980-549720190008.supl.2
https://doi.org/10.1590/1980-54972019000...
77 dos Reis RCP, Duncan BB, Szwarcwald CL, Malta DC, Schmidt MI. Control of glucose, blood pressure, and cholesterol among adults with diabetes: the Brazilian National Health Survey. J Clin Med. 2021; 10(15): 3428. https://doi.org/10.3390/jcm10153428
https://doi.org/10.3390/jcm10153428...
. Além disso, esse estudo é de abrangência nacional, o que nunca havia acontecido até então88 Malta DC, Szwarcwald CL, Silva JBD. First results of laboratory analysis in the National Health Survey. Rev Bras Epidemiol. 2019; 22(Supl. 02): E190001.SUPL.2. https://doi.org/10.1590/1980-549720190001.supl.2
https://doi.org/10.1590/1980-54972019000...
.

No entanto, devido a dificuldades no trabalho de campo, houve uma perda superior a 20% na subamostra de indivíduos indicados para a realização dos exames laboratoriais, resultando em 8.952 participantes que forneceram material biológico. Devido a essas perdas, o método de ponderação de pós-estratificação foi proposto para a análise dos dados e para garantir a validade dos resultados99 Szwarcwald CL, Malta DC, Souza PRB de, Almeida WS de, Damacena GN, Pereira CA, et al. Laboratory exams of the National Health Survey: methodology of sampling, data collection and analysis. Rev Bras Epidemiol. 2019; 22(Supl. 2): E190004.SUPL.2. https://doi.org/10.1590/1980-549720190004.supl.2
https://doi.org/10.1590/1980-54972019000...
.

Técnicas alternativas à pós-estratificação foram propostas na literatura, entre as quais se destacam o raking1010 Deville JC, Sarndal CE, Sautory O. Generalized raking procedures in survey sampling. J Am Stat Assoc. 1993; 88(423): 1013-20. https://doi.org/10.2307/2290793
https://doi.org/10.2307/2290793...
e a calibração de amostragem em duas fases1111 Amorim G, Tao R, Lotspeich S, Shaw PA, Lumley T, Shepherd BE. Two-phase sampling designs for data validation in settings with covariate measurement error and continuous outcome. J R Stat Soc Ser A Stat Soc. 2021; 184(4): 1368-89. https://doi.org/10.1111/rssa.12689
https://doi.org/10.1111/rssa.12689...
,1212 Neyman J. Contribution to the theory of sampling human populations. J Am Stat Assoc. 1938; 33(201): 101-16. https://doi.org/10.2307/2279117
https://doi.org/10.2307/2279117...
. A avaliação do desempenho dos estimadores considerando pesos amostrais e demais características do delineamento é uma questão recorrente no campo de pesquisa de levantamentos por amostragem de planos complexos1313 Korn EL, Graubard BI. Epidemiologic studies utilizing surveys: accounting for the sampling design. Am J Public Health. 1991; 81(9): 1166-73. https://doi.org/10.2105/AJPH.81.9.1166
https://doi.org/10.2105/AJPH.81.9.1166...
,1414 Silva, PLN, Pessoa DGC, Lila MF. Análise estatística de dados da PNAD: incorporando a estrutura do plano amostral. Ciênc Saúde Coletiva. 2002; 7(4): 659-70. https://doi.org/10.1590/S1413-81232002000400005
https://doi.org/10.1590/S1413-8123200200...
.

Neste cenário, o objetivo do presente estudo foi comparar diferentes métodos de calibração de pesos, buscando não apenas corrigir as distorções da subamostra de Exames Laboratoriais da PNS 2013, mas também melhorar a precisão e a confiabilidade das estimativas. Foram utilizadas medidas de avaliação de desempenho1515 Silva PLN. Calibration estimation: when and why, how much and how [Internet]. Rio de Janeiro: IBGE; 2004 [cited on Sep 21, 2022]. Available at: https://biblioteca.ibge.gov.br/biblioteca-catalogo?id=281040&view=detalhes
https://biblioteca.ibge.gov.br/bibliotec...
para identificar a estratégia mais eficaz de calibração dos pesos para garantir que os dados coletados pela PNS possam ser plenamente aproveitados, contribuindo para uma compreensão mais profunda da saúde pública no Brasil.

MÉTODOS

Calibração na subamostra de Exames Laboratoriais da PNS 2013

Tendo em vista que a subamostra de Exames Laboratoriais da PNS 2013 foi delineada com base na informação de distância entre o setor selecionado para a PNS 2013 (primeira fase) e os municípios de grande porte populacional (aqueles municípios com 80 mil habitantes ou mais) dentro da UF do setor99 Szwarcwald CL, Malta DC, Souza PRB de, Almeida WS de, Damacena GN, Pereira CA, et al. Laboratory exams of the National Health Survey: methodology of sampling, data collection and analysis. Rev Bras Epidemiol. 2019; 22(Supl. 2): E190004.SUPL.2. https://doi.org/10.1590/1980-549720190004.supl.2
https://doi.org/10.1590/1980-54972019000...
, esperava-se que um sistema de pesos de um delineamento em duas fases ({dk;kS2}, em que S2 representa a subamostra de Exames Laboratoriais) fosse fornecido aos estatísticos, epidemiologistas e outros pesquisadores que fazem uso dos dados da PNS 2013. Tal informação poderia ser utilizada para a obtenção de estimativas a partir do estimador de expansão dupla, disponível na Equação 3 do Material Suplementar 1, ou ainda, com base no estimador de calibração, permitindo aos usuários dos dados a construção de sistemas de pesos calibrados a partir dos pesos básicos do delineamento em duas fases dk.

Por outro lado, pesos "pós-estratificação" foram fornecidos em conjunto com os dados da subamostra de Exames Laboratoriais (peso_lab). Denotaremos os pesos fornecidos para a subamostra de Exames Laboratoriais por W(lab)k, cuja definição pode ser encontrada no artigo de metodologia da subamostra99 Szwarcwald CL, Malta DC, Souza PRB de, Almeida WS de, Damacena GN, Pereira CA, et al. Laboratory exams of the National Health Survey: methodology of sampling, data collection and analysis. Rev Bras Epidemiol. 2019; 22(Supl. 2): E190004.SUPL.2. https://doi.org/10.1590/1980-549720190004.supl.2
https://doi.org/10.1590/1980-54972019000...
. No cálculo dos pesos "pós-estratificação", foram considerados os dados dos 60.202 participantes selecionados para as entrevistas individuais na primeira fase da PNS 2013. As seguintes variáveis auxiliares foram consideradas para a composição dos estratos: sexo (dois níveis: masculino e feminino); idade (4 faixas etárias: 18 a 29 anos, 30 a 44 anos, 45 a 59 anos e 60 anos ou mais); raça/cor (quatro níveis: branca, preta, parda e outros); grau de instrução (três níveis: fundamental incompleto, fundamental completo e/ou ensino médio incompleto e ensino médio completo ou mais) e macrorregião geográfica (cinco níveis: Sul, Sudeste, Centro-Oeste, Norte e Nordeste), resultando em um total de 480 pós-estratos. Os pesos "pós-estratificação" foram então definidos por99 Szwarcwald CL, Malta DC, Souza PRB de, Almeida WS de, Damacena GN, Pereira CA, et al. Laboratory exams of the National Health Survey: methodology of sampling, data collection and analysis. Rev Bras Epidemiol. 2019; 22(Supl. 2): E190004.SUPL.2. https://doi.org/10.1590/1980-549720190004.supl.2
https://doi.org/10.1590/1980-54972019000...
(Equação 1):

(1)w(lab)k=Nhnh×nhNh,parakpertencenteaoestratoh,

Em que:

Nh: o número de moradores selecionados da PNS 2013 em cada estrato,

h e nh: o número de observações correspondentes na subamostra de Exames Laboratoriais99 Szwarcwald CL, Malta DC, Souza PRB de, Almeida WS de, Damacena GN, Pereira CA, et al. Laboratory exams of the National Health Survey: methodology of sampling, data collection and analysis. Rev Bras Epidemiol. 2019; 22(Supl. 2): E190004.SUPL.2. https://doi.org/10.1590/1980-549720190004.supl.2
https://doi.org/10.1590/1980-54972019000...
.

Note que, utilizando a notação de delineamentos em duas fases, Nh e nh seriam denotados por n1h e n2h, respectivamente.

Sobre a construção e utilização dos pesos "pós-estratificação" propostos, destacamos três observações:

  • Não é possível saber ao certo, mas a quantidade nh/Nh parece ser aproximadamente n1/n2 = 8952/60.202, a "fração de amostragem" em relação à amostra da primeira fase da PNS 2013. Ainda, notamos que os pesos (1) não parecem ser pesos pós-estratificação genuínos, pois estes não levam em consideração os pesos básicos de delineamento;

  • As estimativas produzidas com os dados da subamostra de Exames Laboratoriais e os pesos W(lab)k são generalizáveis para a amostra da PNS 2013 de 60.202 participantes, e não para a população-alvo da PNS, composta por adultos residentes em domicílios particulares permanentes;

  • Na análise de dados da subamostra de Exames Laboratoriais, o uso dos pesos definidos em (1) é feito em conjunto com a definição do delineamento da subamostra. Em geral, assume-se uma amostra com probabilidades desiguais de inclusão, em que os pesos básicos são dados pelos pesos W(lab)k. Isso resulta em um cálculo da variância dos estimadores a partir desses pesos W(lab)k.

Em relação a essa última observação, nós argumentamos que a variância dos estimadores deveria utilizar os pesos dk, ou um sistema de pesos que se aproxime de tal expressão. Maiores informações referente às definições básicas dos delineamentos por amostragem, definição dos pesos básicos e sistema de pesos calibrados estão disponíveis no Material Suplementar 1.

Métodos de calibração alternativos

Como as variáveis utilizadas para a construção dos pesos W(lab)k são disponibilizadas nos arquivos de microdados da PNS 2013, para a amostra de 60.202 participantes e para a subamostra de Exames Laboratoriais de 8.952 participantes, propomos como forma alternativa de análise dos dados da subamostra da PNS 2013 os seguintes delineamento e construção dos pesos: assumimos que a subamostra de Exames Laboratoriais foi selecionada por amostragem aleatória simples sem reposição da amostra da primeira fase da PNS 2013. Os pesos básicos assumem a forma dk=n1/n2=60.202/8.9526,72 para todos os 8.952 participantes da segunda fase da PNS 2013. Pesos pós-estratificação foram construídos utilizando as mesmas variáveis auxiliares dos pesos W(lab)k, porém adotando como referência a variável "Projeção da população", disponível nos microdados da PNS 2013 (variável V00282). Com essa projeção, o total de adultos brasileiros é estimado em 145.572.210. Os pesos pós-estratificação são calculados por Equação 2:

(2)wPEAASk=dkNhˆNh,π=n1n2×NhˆNh,π=n1n2×Nhn2h×n2n1=Nhn2h,

para k pertencente ao estrato h em que n2h corresponde ao número de participantes no estrato h na subamostra S2. A penúltima igualdade em (2) se justifica, pois ˆNh,π=KS2ΩUhdk=n2h×(n1/n2), uma vez que assumimos dk = n1/n2.

Note que a expressão (2) é idêntica à primeira equação do artigo de metodologia da subamostra de Exames Laboratoriais99 Szwarcwald CL, Malta DC, Souza PRB de, Almeida WS de, Damacena GN, Pereira CA, et al. Laboratory exams of the National Health Survey: methodology of sampling, data collection and analysis. Rev Bras Epidemiol. 2019; 22(Supl. 2): E190004.SUPL.2. https://doi.org/10.1590/1980-549720190004.supl.2
https://doi.org/10.1590/1980-54972019000...
, com a diferença que em (2)Nh representa o número de moradores em cada estrato h na população brasileira, e não mais o número de moradores selecionados da PNS 2013 em cada estrato h. Dessa forma, propomos um sistema de pesos que produz estimativas generalizáveis para a população-alvo da PNS 2013.

Uma segunda alternativa na criação do sistema de pesos calibrados, ainda assumindo que os pesos básicos correspondem à amostragem aleatória simples, foi obtida por meio do método conhecido como raking. O processo envolve a pós-estratificação de cada conjunto de variáveis por vez e a repetição desse processo até que os pesos se estabilizem1616 Haziza D, Beaumont JF. Construction of weights in surveys: a review. Statist Sci. 2017; 32(2): 206-26. https://doi.org/10.1214/16-STS608
https://doi.org/10.1214/16-STS608...
. O raking permite que várias variáveis de agrupamento sejam usadas sem a necessidade de construir uma classificação cruzada completa. As variáveis auxiliares utilizadas para construção desses pesos foram as mesmas utilizadas para construir os pesos W(PEAAS)k,, e a variável "Projeção da população" também foi utilizada. Denotaremos por W(rakeAAS)k os pesos obtidos a partir do raking.

Aspectos éticos

Este estudo utilizou dados de acesso públicos e anonimizados da PNS do IBGE, portanto, não foi necessária a aprovação do Comitê de Ética em Pesquisa.

Análise estatística

Para avaliar a sub e sobre representação dos grupos das variáveis auxiliares (utilizadas para construção dos pesos calibrados), supondo que as projeções populacionais (a partir dos dados da PNS 2013) são os valores verdadeiros da população, foram comparadas as frequências relativas estimadas pelos três sistemas de pesos W(lab)k, W(PEAAS)k e W(rakeAAS)k) com os delineamentos já apresentados.

Como forma de comparar as propostas de pesos calibrados com os pesos fornecidos em conjunto com a subamostra de Exames Laboratoriais, foram estimados parâmetros populacionais para certas variáveis de interesse, conforme a descrição da Tabela 1. As variáveis com código iniciando com a letra "Z" foram obtidas na fase de coleta de Exames Laboratoriais da PNS 2013. As demais variáveis (código iniciando com a letra "Q" ou "J") foram obtidas na primeira fase de coleta da PNS 2013, e estão disponíveis para os 60.202 participantes.

Tabela 1
Características de interesse da subamostra de Exames Laboratoriais da PNS 2013 selecionadas para avaliação das estimativas de calibração.

Para avaliar as estimativas produzidas com os sistemas de pesos propostos na W(PEAAS)k e W(rakeAAS)k foram calculadas as 7 medidas apresentadas no Material Suplementar 2. As análises foram realizadas no software R1717 R Core Team. R: A language and environment for statistical computing [Internet]. Viena: R Foundation for Statistical Computing; 2021 [cited on May 16, 2021]. Available at: https://www.r-project.org/
https://www.r-project.org/...
em conjunto com o pacote survey1818 Lumley T. Analysis of complex survey samples. J Stat Softw. 2004; 9(8): 1-19. https://doi.org/10.18637/jss.v009.i08
https://doi.org/10.18637/jss.v009.i08...
para incorporar o delineamento de amostragem. O código em R com a especificação do objeto de delineamento (svydesign) utilizado nas análises é apresentado no Material Suplementar 3.

RESULTADOS

Distribuição dos pesos

As distribuições dos pesos de W(lab)k e W(PEAAS)k possuem forma similar, no entanto, os valores que cada sistema de pesos assume é muito distinta, refletindo o que cada um dos sistemas de pesos representa: se, por um lado, W(lab)k tem como alvo representar a amostra da primeira fase da PNS 2013 (Figura 1A); por outro lado, W(PEAAS)k tem como objetivo representar a população-alvo da pesquisa, ou seja, adultos brasileiros residentes em domicílios particulares permanentes (Figura 1B). A distribuição de pesos do raking apresenta uma forma distinta das demais distribuições de pesos W(lab)k e W(PEAAS)k, mas com valores parecidos com os pesos W(PEAAS)k. Assim, os pesos W(rakeAAS)k também produzem estimativas generalizáveis para a população-alvo da PNS 2013 (Figura 1C).

Figura 1
Distribuição dos pesos de (A) pós-estratificação disponibilizados junto aos dados da subamostra de exames laboratoriais da PNS 2013; e de (B) pós-estratificação e (C) raking construídos a partir da projeção populacional – subamostra de Exames Laboratoriais, PNS 2013.

Representatividade dos pós-estratos

Os pesos W(lab)k apresentam estimativas das proporções das variáveis auxiliares próximas da projeção populacional (Figura S1, Material Suplementar). Em geral, as estimativas com base em W(lab)k apresentam diferença (erro absoluto) de, no máximo, 0,15%, com exceção das categorias raça/cor parda (0,22%), raça/cor outra (0,42%) e região Nordeste (-0,26%). Já as estimativas obtidas pelos pesos W(PEAAS)k apresentaram erro absoluto, em geral, também não maior que 0,15%, com exceção das categorias raça/cor branca (0,21%), parda (-0,20%) e outra (0,43%). Com os pesos calibrados pelo método do raking, W(rakeAAS)k, as estimativas das proporções das variáveis auxiliares coincidem com as projeções populacionais. Resultados semelhantes foram obtidos ao se comparar as estimativas dos totais populacionais das variáveis auxiliares (Tabela S1, Material Suplementar 4). Consideramos calcular o erro relativo (ER) de W(lab)k, no entanto, é possível notar que as estimativas populacionais oriundas desses pesos são muito diferentes das projeções populacionais, o que resulta em um ER extremamente alto — por isto optamos por não apresentar esses resultados.

Medidas de avaliação da calibração

As 7 medidas de avaliação dos métodos de calibração são apresentadas na Tabela 2. A média do ER absoluto de calibração foi M1 = 2,16 para o método de pós-estratificação e M1 = 0 para o raking. Esses resultados já eram esperados, tendo em vista que os totais estimados para as variáveis auxiliares foram, em geral, inferiores aos totais populacionais. A média dos coeficientes de variação dos totais das variáveis auxiliares M2 = 0% para ambos os métodos indica que estimativas dos totais das variáveis auxiliares produzidos pelos dois métodos são não tendenciosas.

Tabela 2
Medidas de desempenho dos métodos de calibração por pós-estratificação e raking – subamostra de Exames Laboratoriais, PNS 2013.

As medidas M3 e M4 (proporção de pesos extremos) indicam a presença de pesos g extremos tanto para o método de pós-estratificação quanto para o raking. Isso era esperado, tendo em vista a distância entre os pesos assumidos como pesos de delineamento dk e os pesos construídos W(PEAAS)k e W(rakeAAS)k (M6 = 13.440,07 para a pós-estratificação e M6 = 11.447,09 para o raking). O coeficiente de variação dos pesos g também indica essa característica da construção dos pesos calibrados e foi alto para os dois métodos (M5 = 91,37% para a pós-estratificação e M5 = 83,94% para o raking), apresentando uma leve vantagem para o método raking.

A eficiência média das estimativas (M7) pelos métodos alternativos de calibração para o conjunto de variáveis apresentadas na Tabela 1 indicam que há uma pequena vantagem do método de pós-estratificação em comparação ao raking.

Precisão das estimativas dos parâmetros de interesse

A Tabela 3 apresenta as estimativas para os parâmetros relacionados às características de interesse (listados na Tabela 1), juntamente com os coeficientes de variação obtidos a partir dos três sistemas de pesos calibrados. Observa-se que as estimativas pontuais (totais, prevalências e médias) produzidas pelos três métodos, em geral, são muito próximas. A exceção diz respeito à estimativa dos totais populacionais a partir dos pesos pós-estratificação da própria subamostra de Exames Laboratoriais, os pesos W(lab)k. Como já observado, tais resultados não são generalizáveis para a população-alvo da PNS 2013. Por fim, as estimativas de coeficiente de variação das estimativas apresentam maior precisão dos métodos de calibração alternativos propostos neste trabalho. Este resultado era esperado, uma vez que a estimação do erro-padrão das estimativas leva em consideração os aspectos do delineamento amostral assumido.

Tabela 3
Totais e prevalências (%) estimados e coeficiente de variação (CV%) das características de interesse obtidos a partir dos três sistemas de pesos calibrados — subamostra de Exames Laboratoriais, PNS 2013.

Com o propósito de avaliar o desempenho dos métodos de calibração na estimativa em subgrupos da população, foram obtidas estimativas de prevalência de diabetes de acordo com algumas características de interesse (Tabela 4). Mais uma vez, percebe-se que as estimativas pontuais são muito semelhantes para os três sistemas de peso, e que o ganho aparente dos métodos alternativos de calibração se dá nas estimativas de precisão. Os intervalos de confiança de 95% para a prevalência de diabetes nos subgrupos da população produzidos pelos métodos de pós-estratificação (W(PEAAS)k) e raking(W(rakeAAS)k) são ligeiramente mais estreitos que aqueles produzidos pelo peso W(lab)k.

Tabela 4
Prevalência de diabetes (em %) e intervalo de confiança de 95% (IC95%) de acordo com subgrupos da população obtidos a partir dos três sistemas de pesos calibrados – subamostra de Exames Laboratoriais, PNS 2013.

DISCUSSÃO

A Pesquisa Nacional de Saúde em 2013 envolveu a coleta de uma subamostra de exames laboratoriais, importante contribuição para estudos da saúde da população brasileira. As técnicas de amostragem sugerem que um delineamento em duas fases poderia ter sido empregado na subamostra da PNS 2013 para a construção de sistemas de pesos básicos e calibrados. No entanto, dificuldades na coleta da amostra da segunda fase resultaram na não divulgação dos pesos de delineamento em conjunto com os microdados da subamostra de Exames Laboratoriais. Na ausência de pesos básicos de amostragem, os gestores dos dados da subamostra forneceram pesos calibrados pelo método de pós-estratificação.

Neste trabalho, propusemos dois métodos de calibração alternativos com base na pós-estratificação e no raking. Os sistemas de pesos obtidos a partir destes métodos apresentaram desempenho concorrente ao sistema de pesos disponibilizado junto aos dados dos Exames Laboratoriais. Em particular, destaca-se que as estimativas obtidas a partir dos sistemas de pesos sugeridos são generalizáveis para a população-alvo da PNS 2013: a população brasileira de adultos residentes em domicílios particulares.

Outro aspecto a ser enfatizado é que os dois métodos de calibração propostos apresentaram maior precisão para as estimativas consideradas neste trabalho. Uma possível explicação para esse comportamento das estimativas é o fato de termos utilizado alguns aspectos importantes, embora de forma suposta, do delineamento do levantamento por amostragem, que resultam no cálculo adequado da estimativa da variância das estimativas de parâmetros de interesse.

Ao utilizar medidas de avaliação do desempenho dos métodos de calibração, os dois sistemas de pesos sugeridos apresentaram um bom desempenho, como uma vantagem para os pesos baseados no raking. Alguns trabalhos anteriores apontam para as mesmas conclusões1919 Djerf K. Effects of post-stratification on the estimates of the finnish labour force survey. J Off Stat. 1997; 13(1): 29-39.2222 Bernal RTI, Iser BPM, Malta DC, Claro RM. Sistema de vigilância de fatores de risco e proteção para doenças crônicas por inquérito telefônico (Vigitel): mudança na metodologia de ponderação. Epidemiol Serv Saúde. 2017; 26(4): 701-12. https://doi.org/10.5123/S1679-49742017000400003
https://doi.org/10.5123/S1679-4974201700...
. No entanto, é preciso salientar que medidas referentes à comparação entre os pesos calibrados e "pré-calibrados" identificam uma distância muito grande entre essas duas ponderações. É provável que esse comportamento seja observado pelo fato de termos assumido um delineamento de amostragem aleatória simples a partir da amostra da primeira fase da PNS 2013 para os dados da subamostra de Exames Laboratoriais, enquanto os pós-estratos foram construídos a partir das projeções da população brasileira.

Como pode ser observado, a subamostra de Exames Laboratoriais da PNS 2013 poderia ser vista como resultado de um delineamento de amostragem em duas fases1616 Haziza D, Beaumont JF. Construction of weights in surveys: a review. Statist Sci. 2017; 32(2): 206-26. https://doi.org/10.1214/16-STS608
https://doi.org/10.1214/16-STS608...
. No entanto, as probabilidades de seleção (ou, de forma análoga, os pesos básicos de amostragem) não foram disponibilizadas no arquivo de microdados dos Exames Laboratoriais, e assim, as vantagens de um delineamento em duas fases não puderam ser empregadas. A disponibilização dos pesos básicos de delineamento da subamostra de Exames Laboratoriais pode auxiliar estatísticos e epidemiologistas a construir sistemas de pesos calibrados de tal forma a melhorar o desempenho dos estimadores de calibração.

Com respeito à estimativa de totais populacionais (e.g., o total de indivíduos com diabetes), os dois métodos propostos por este artigo fornecem estimativas para a população-alvo da PNS 2013, generalizando os resultados para a população de adultos brasileiros. Já o sistema de pesos fornecidos em conjunto com os dados da subamostra de Exames Laboratoriais resultou em estimativas para a amostra da PNS 2013. Embora seja possível obter estimativas para a população-alvo da PNS de forma indireta, multiplicando-se a proporção amostral pelo tamanho da população, é preferível que os métodos, em conjunto com os softwares adequados, forneçam diretamente essas estimativas para evitar erros de interpretação dos resultados.

A abordagem adotada neste artigo foi a da ponderação por meio de métodos de calibração. Algumas limitações do nosso trabalho são inerentes à referida abordagem, por exemplo, a aplicação de pesos para estimativas mais complexas, como coeficientes de regressão; a dificuldade em avaliar os erros-padrões das estimativas ponderadas; e as decisões envolvidas na criação de sistemas de pesos2323 Gelman A. Struggles with survey weighting and regression modeling. Statist Sci. 2007; 22(2): 153-64. https://doi.org/10.1214/088342306000000691
https://doi.org/10.1214/0883423060000006...
. Ainda assim, recomendamos que estimativas ponderadas sejam utilizadas no lugar de estimativas não ponderadas a partir de dados de inquéritos populacionais de delineamento de amostragem complexo. Uma outra limitação deste trabalho foi a suposição de certos aspectos do delineamento empregado para a coleta dos dados da subamostra de Exames Laboratoriais da PNS 2013. Como já enfatizado na literatura, as análises devem considerar os aspectos relevantes do plano amostral1414 Silva, PLN, Pessoa DGC, Lila MF. Análise estatística de dados da PNAD: incorporando a estrutura do plano amostral. Ciênc Saúde Coletiva. 2002; 7(4): 659-70. https://doi.org/10.1590/S1413-81232002000400005
https://doi.org/10.1590/S1413-8123200200...
, e a disponibilização de tais aspectos referentes ao plano da subamostra de Exames Laboratoriais da PNS proporcionaria aos pesquisadores maior precisão às estimativas das quantidades populacionais de interesse.

Finalizamos com duas sugestões para os amostristas e gestores das Pesquisas Nacionais de Saúde que serão utilizadas por outros pesquisadores. Primeiro, que todos os pesos referentes ao delineamento da PNS sejam documentados e incluídos nos arquivos de dados de uso público. Isso possibilitaria que os usuários construíssem estimativas a partir dos pesos básicos ou calibrados, utilizando as suas próprias variáveis auxiliares. A correta precisão das estimativas poderia ser obtida com a utilização adequada de softwares de análise de dados oriundos de planos amostrais complexos.

A nossa segunda recomendação diz respeito ao chaveamento das informações obtidas na amostra e subamostra (de Exames Laboratoriais) da PNS 2013. Tal informação permitiria a exploração de métodos como a imputação de dados para obter estimativas mais precisas. Dada a grande relevância destes dados para a pesquisa em epidemiologia e saúde coletiva, os métodos mais adequados devem ser empregados na análise dos mesmos.

  • FONTE DE FINANCIAMENTO:

    nenhuma.

Referências bibliográficas

  • 1
    Malta DC, Stopa SR, Szwarcwald CL, Gomes NL, Silva Júnior JB, Reis AAC. Surveillance and monitoring of major chronic diseases in Brazil - National Health Survey, 2013. Rev Bras Epidemiol. 2015; 18(Supl. 2): 3-16. https://doi.org/10.1590/1980-5497201500060002
    » https://doi.org/10.1590/1980-5497201500060002
  • 2
    IBGE. Pesquisa nacional de saúde: 2013: percepção do estado de saúde, estilos de vida e doenças crônicas: Brasil, grandes regiões e unidades da federação [Internet]. Rio de Janeiro: IBGE; 2014 [cited on Sep 21, 2022]. Available at: https://biblioteca.ibge.gov.br/index.php/biblioteca-catalogo?id=291110&view=detalhes
    » https://biblioteca.ibge.gov.br/index.php/biblioteca-catalogo?id=291110&view=detalhes
  • 3
    Machado IE, Malta DC, Bacal NS, Rosenfeld LGM. Prevalence of anemia in Brazilian adults and elderly. Rev Bras Epidemiol. 2019; 22(Supl. 2): E190008.Supl.2. https://doi.org/10.1590/1980-549720190008.supl.2
    » https://doi.org/10.1590/1980-549720190008.supl.2
  • 4
    Malta DC, Szwarcwald CL, Machado IE, Pereira CA, Figueiredo AW, Sá ACMGN, et al. Prevalence of altered total cholesterol and fractions in the Brazilian adult population: National Health Survey. Rev Bras Epidemiol. 2019; 22(Supl. 2): E190005.SUPL.2. https://doi.org/10.1590/1980-549720190005.supl.2
    » https://doi.org/10.1590/1980-549720190005.supl.2
  • 5
    Malta DC, Machado IE, Pereira CA, Figueiredo AW, Aguiar LK de, Almeida WS, et al. Evaluation of renal function in the Brazilian adult population, according to laboratory criteria from the National Health Survey. Rev Bras Epidemiol. 2019; 22(Supl. 2): E190010.SUPL.2. https://doi.org/10.1590/1980-549720190010.supl.2
    » https://doi.org/10.1590/1980-549720190010.supl.2
  • 6
    Malta DC, Duncan BB, Schmidt MI, Machado IE, Silva AG da, Bernal RTI, et al. Prevalence of diabetes mellitus as determined by glycated hemoglobin in the Brazilian adult population, National Health Survey. Rev Bras Epidemiol. 2019; 22(Supl. 2): E190006.SUPL.2. https://doi.org/10.1590/1980-549720190006.supl.2
    » https://doi.org/10.1590/1980-549720190006.supl.2
  • 7
    dos Reis RCP, Duncan BB, Szwarcwald CL, Malta DC, Schmidt MI. Control of glucose, blood pressure, and cholesterol among adults with diabetes: the Brazilian National Health Survey. J Clin Med. 2021; 10(15): 3428. https://doi.org/10.3390/jcm10153428
    » https://doi.org/10.3390/jcm10153428
  • 8
    Malta DC, Szwarcwald CL, Silva JBD. First results of laboratory analysis in the National Health Survey. Rev Bras Epidemiol. 2019; 22(Supl. 02): E190001.SUPL.2. https://doi.org/10.1590/1980-549720190001.supl.2
    » https://doi.org/10.1590/1980-549720190001.supl.2
  • 9
    Szwarcwald CL, Malta DC, Souza PRB de, Almeida WS de, Damacena GN, Pereira CA, et al. Laboratory exams of the National Health Survey: methodology of sampling, data collection and analysis. Rev Bras Epidemiol. 2019; 22(Supl. 2): E190004.SUPL.2. https://doi.org/10.1590/1980-549720190004.supl.2
    » https://doi.org/10.1590/1980-549720190004.supl.2
  • 10
    Deville JC, Sarndal CE, Sautory O. Generalized raking procedures in survey sampling. J Am Stat Assoc. 1993; 88(423): 1013-20. https://doi.org/10.2307/2290793
    » https://doi.org/10.2307/2290793
  • 11
    Amorim G, Tao R, Lotspeich S, Shaw PA, Lumley T, Shepherd BE. Two-phase sampling designs for data validation in settings with covariate measurement error and continuous outcome. J R Stat Soc Ser A Stat Soc. 2021; 184(4): 1368-89. https://doi.org/10.1111/rssa.12689
    » https://doi.org/10.1111/rssa.12689
  • 12
    Neyman J. Contribution to the theory of sampling human populations. J Am Stat Assoc. 1938; 33(201): 101-16. https://doi.org/10.2307/2279117
    » https://doi.org/10.2307/2279117
  • 13
    Korn EL, Graubard BI. Epidemiologic studies utilizing surveys: accounting for the sampling design. Am J Public Health. 1991; 81(9): 1166-73. https://doi.org/10.2105/AJPH.81.9.1166
    » https://doi.org/10.2105/AJPH.81.9.1166
  • 14
    Silva, PLN, Pessoa DGC, Lila MF. Análise estatística de dados da PNAD: incorporando a estrutura do plano amostral. Ciênc Saúde Coletiva. 2002; 7(4): 659-70. https://doi.org/10.1590/S1413-81232002000400005
    » https://doi.org/10.1590/S1413-81232002000400005
  • 15
    Silva PLN. Calibration estimation: when and why, how much and how [Internet]. Rio de Janeiro: IBGE; 2004 [cited on Sep 21, 2022]. Available at: https://biblioteca.ibge.gov.br/biblioteca-catalogo?id=281040&view=detalhes
    » https://biblioteca.ibge.gov.br/biblioteca-catalogo?id=281040&view=detalhes
  • 16
    Haziza D, Beaumont JF. Construction of weights in surveys: a review. Statist Sci. 2017; 32(2): 206-26. https://doi.org/10.1214/16-STS608
    » https://doi.org/10.1214/16-STS608
  • 17
    R Core Team. R: A language and environment for statistical computing [Internet]. Viena: R Foundation for Statistical Computing; 2021 [cited on May 16, 2021]. Available at: https://www.r-project.org/
    » https://www.r-project.org/
  • 18
    Lumley T. Analysis of complex survey samples. J Stat Softw. 2004; 9(8): 1-19. https://doi.org/10.18637/jss.v009.i08
    » https://doi.org/10.18637/jss.v009.i08
  • 19
    Djerf K. Effects of post-stratification on the estimates of the finnish labour force survey. J Off Stat. 1997; 13(1): 29-39.
  • 20
    Ruiz CMM, Silva PLN. Explorando alternativas para a calibração dos pesos amostrais da Pesquisa Nacional por Amostra de Domicílios. In: Proceedings of the Conference Name. Lima, Peru; 2014.
  • 21
    Tu SH. A comparison of propensity score sub-classification and other calibration methods based on a telephone sample to estimate internet usage. Taiwanese J Sociol. 2015; 56: 115-50. https://doi.org/10.6786/TJS.201506_(56).0003
    » https://doi.org/10.6786/TJS.201506_(56).0003
  • 22
    Bernal RTI, Iser BPM, Malta DC, Claro RM. Sistema de vigilância de fatores de risco e proteção para doenças crônicas por inquérito telefônico (Vigitel): mudança na metodologia de ponderação. Epidemiol Serv Saúde. 2017; 26(4): 701-12. https://doi.org/10.5123/S1679-49742017000400003
    » https://doi.org/10.5123/S1679-49742017000400003
  • 23
    Gelman A. Struggles with survey weighting and regression modeling. Statist Sci. 2007; 22(2): 153-64. https://doi.org/10.1214/088342306000000691
    » https://doi.org/10.1214/088342306000000691

Datas de Publicação

  • Publicação nesta coleção
    24 Fev 2025
  • Data do Fascículo
    2025

Histórico

  • Recebido
    16 Maio 2024
  • Revisado
    09 Out 2024
  • Aceito
    07 Nov 2024
Associação Brasileira de Pós -Graduação em Saúde Coletiva São Paulo - SP - Brazil
E-mail: revbrepi@usp.br