Desenho da amostra Nascer no Brasil: Pesquisa Nacional sobre Parto e Nascimento

Diseño de la muestra Nacer en Brasil: Encuesta Nacional sobre Partos y Nascimientos en Brasil

Mauricio Teixeira Leite de Vasconcellos Pedro Luis do Nascimento Silva Ana Paula Esteves Pereira Arthur Orlando Correa Schilithz Paulo Roberto Borges de Souza Junior Celia Landmann Szwarcwald Sobre os autores

Resumos

Este artigo descreve a amostra da Pesquisa Nacional sobre Parto e Nascimento no Brasil. Os hospitais com 500 ou mais nascidos vivos em 2007 foram estratificados por macrorregião, capital de estado ou não, e tipo, e selecionados com probabilidade proporcional ao número de nascidos-vivos em 2007. Amostragem inversa foi usada para selecionar tantos dias de pesquisa (mínimo de 7) quantos fossem necessários para alcançar 90 entrevistas realizadas com puérperas no hospital. As puérperas foram amostradas com igual probabilidade entre as elegíveis que entraram no hospital no dia. Os pesos amostrais básicos são o inverso do produto das probabilidades de inclusão em cada estágio e foram calibrados para assegurar que estimativas dos totais de nascidos vivos dos estratos correspondessem aos totais de nascidos vivos obtidos no SINASC. Para os dois seguimentos telefônicos (6 e 12 meses depois), a probabilidade de resposta das puérperas foi modelada pelas variáveis disponíveis na pesquisa de base, a fim de corrigir, para a não resposta, os pesos amostrais em cada onda de seguimento.

Amostragem; Amostragem Estratificada; Modelos Estatísticos; Parto


Este artículo describe la muestra de la Encuesta Nacional sobre Partos y Nacimientos en Brasil. Los hospitales con 500 o más nacimientos en 2007 fueron estratificados por región, capital del estado o no, y tipo, y se seleccionan con probabilidad proporcional al número de nacidos vivos en 2007. Se utilizó un muestreo inverso para seleccionar los días de encuesta (mínimo 7), con el fin de lograr 90 entrevistas en el hospital. Se realizó el muestreo de las mujeres posparto, con igual probabilidad entre las mujeres elegibles que entraron en el hospital cada día. Los pesos iniciales son el inverso del producto de las probabilidades de inclusión en cada etapa y se calibraron para asegurar que las estimaciones del total de nacidos vivos correspondieran al total de nacidos vivos, obtenidos a partir de SINASC. Para los dos seguimientos telefónicos (6 y 12 meses después), la probabilidad de respuesta de las mujeres posparto fue modelada a partir de variables disponibles en la investigación básica, a fin de corregir, debido a la no-respuesta, los pesos de la muestra de cada ola de seguimiento.

Muestro; Muestro Estratificado; Modelos Estadísticos; Parto


Introdução

Segundo Leal et al. 1 do Carmo Leal M, da Silva AA, Dias MA, da Gama SG, Rattner D, Moreira ME, et al. Birth in Brazil: national survey into labour and birth. Reprod Health 2012; 9:15., os objetivos da Pesquisa Nacional sobre Parto e Nascimento no Brasil foram: (1) descrever a incidência excessiva de cesariana (de acordo com grupos de Robson) e examinar as consequências sobre a saúde das mulheres e dos recém-nascidos; (2) investigar a relação entre o excesso de cesarianas e parto prematuro tardio e baixo peso ao nascer; e (3) investigar a relação entre o excesso de cesarianas e a utilização de procedimentos técnicos após o nascimento.

Este artigo descreve o desenho da amostra usada na pesquisa, incluindo a definição da população de pesquisa, a estratificação das unidades primárias de amostragem, os critérios para seleção de hospitais, dias de pesquisa e puérperas, o cálculo dos pesos amostrais básicos e sua calibração. Descreve, também, a estratégia usada para estimar as probabilidades de resposta às entrevistas em duas ondas de seguimento telefônico, realizadas 6 e 12 meses após a entrevista no hospital, de modo a permitir o cálculo dos pesos amostrais das respondentes em cada onda de seguimento.

População de pesquisa, cadastro do primeiro estágio de seleção e estratificação

A população de pesquisa 2 Cochran WG. Sampling techniques. 3rd Ed. New York: John Wiley & Sons; 1977. corresponde ao conjunto de puérperas que tiveram filhos nascidos vivos em 2011 em hospitais com 500 ou mais nascidos vivos em 2007, segundo o Sistema de Informações sobre Nascidos Vivos (SINASC; http://portal.saude.gov.br/portal/saude/visuali zar_texto.cfm?idtxt=21379). O SINASC foi criado pelo Ministério da Saúde em 1990 para coletar informações epidemiológicas sobre nascidos vivos em hospitais e domicílios de todo o território nacional.

Por razões operacionais, puérperas com distúrbios mentais graves; desabrigadas (ou em situação de rua); estrangeiras que não entendem português; surdas/mudas; e condenadas por ordem judicial foram excluídas da população de pesquisa. Em decorrência da definição da população de pesquisa, somente os hospitais com 500 ou mais nascidos vivos em 2007 foram incluídos no cadastro de seleção do primeiro estágio da amostra. Ao final, 1.403 hospitais de 3.961 existentes em 2007 foram elegíveis para o estudo, representando 2.228.534 (77.1%) do total de 2.891.328 nascidos vivos naquele ano.

A fim de garantir a seleção de diferentes tipos de hospital (público, privado e misto) em todas as cinco macrorregiões do país, divididas entre o conjunto de municípios de capital e demais municípios, que têm diferenças importantes de tamanho e tipo de serviços de saúde, os hospitais no cadastro de seleção do primeiro estágio foram estratificados pela combinação de macrorregião, capital ou não, tipo de hospital, definindo os 30 estratos apresentados na Tabela 1. Foram considerados de tipo misto, os hospitais privados com leitos contratados pelo SUS.

Tabela 1
Número de nascidos vivos e de hospitais na população de pesquisa e tamanho da amostra, segundo o estrato.

Tamanho da amostra e sua alocação por estrato

Segundo do Carmo Leal et al. 1 do Carmo Leal M, da Silva AA, Dias MA, da Gama SG, Rattner D, Moreira ME, et al. Birth in Brazil: national survey into labour and birth. Reprod Health 2012; 9:15., o tamanho da amostra em cada estrato foi calculado com base na proporção de cesarianas no Brasil em 2007 de 46,6%, com nível de significância de 5% e potência de 95%, para detectar diferenças de 14% entre hospitais públicos e mistos e hospitais privados. O tamanho mínimo de amostra aleatória simples por estrato foi de 341 puérperas. Como a amostra é conglomerada por hospital, um efeito de desenho de aproximadamente 1,3 foi usado para aumentar o tamanho de amostra inicial, conduzindo a um tamanho de amostra mínimo de 450 puérperas por estrato.

Essa forma de determinação do tamanho de amostra, pouco usual em estudos observacionais, é usada em experimentos e ensaios clínicos que partem de um teste bilateral da hipótese de igualdade entre as proporções nos grupos de controle e tratamento 3 Altman DG. Practical statistics for medical research. London: Chapman and Hall, 1991.. Para esse cálculo, foi usada a expressão 3.14 de Fleiss 4 Fleiss JL. Statistical methods for rates and proportions, 2nd Ed. New York: John Wiley & Sons; 1981..

Ainda segundo Leal et al. 1 do Carmo Leal M, da Silva AA, Dias MA, da Gama SG, Rattner D, Moreira ME, et al. Birth in Brazil: national survey into labour and birth. Reprod Health 2012; 9:15., o tamanho da amostra tem potência de 80% para detectar eventos adversos da ordem de 3% e diferenças de pelo menos 1,5% entre as macrorregiões ou tipo de hospital.

Considerando o número mínimo de 450 puérperas por estrato, decidiu-se selecionar pelo menos cinco hospitais por estrato, conduzindo a uma amostra de 90 puérperas por hospital. Se fosse feita uma alocação igual entre os estratos, esses parâmetros conduziriam a uma amostra de 210 hospitais. No entanto, optou-se por realizar uma alocação proporcional ao número de hospitais nos estratos, assegurando o tamanho mínimo de cinco hospitais (ou 450 puérperas) nos estratos menores, o que conduziu a um tamanho de amostra de 266 hospitais, como indicado na Tabela 1.

Seleção dos hospitais

No primeiro estágio, os hospitais foram selecionados com probabilidade proporcional ao tamanho (PPT), definido pelo número de nascidos vivos no hospital segundo o SINASC 2007. Como usual em seleções PPT, os hospitais com grande número de nascidos vivos (mais de 13 por dia, em média) foram incluídos com certeza na amostra e tratados como estratos de seleção para a seleção de dias de pesquisa e puérperas. No caso de estratos com cinco ou menos hospitais, foi realizado um censo e cada hospital foi também tratado como estrato de seleção para os estágios subsequentes de amostragem.

A seleção de hospitais foi feita de forma sistemática 5 Madow WG. On the theory of systematic sampling, II. Annals of Mathematical Statistics 1949; 20: 333-54., após classificação do arquivo por estrato e número de nascidos vivos no hospital em 2007. As probabilidades de inclusão dos hospitais na amostra são apresentadas nas expressões (1a) e (1b) da Figura 1.

Figura 1
Esquema probabilístico da amostra.

Seleção dos dias de pesquisa

No segundo estágio, o método de amostragem inversa 2 Cochran WG. Sampling techniques. 3rd Ed. New York: John Wiley & Sons; 1977.,6 Haldane JBS. On a method of estimating frequencies. Biometrika 1945; 33:222-5. foi utilizado para selecionar tantos dias de pesquisa quantos fossem necessários para alcançar 90 puérperas entrevistadas no hospital. Esse método, originalmente descrito por Haldane 6 Haldane JBS. On a method of estimating frequencies. Biometrika 1945; 33:222-5. para estimar frequências e proporções, pode ser definido como a técnica de amostrar tantas unidades quantas for necessário observar para obter um número prefixado de sucessos ou, neste caso, de entrevistas realizadas com puérperas.

Esse método é denominado amostragem inversa porque em vez de definir um número fixo de dias para ter o tamanho de amostra esperado de 90 puérperas, como feito por Veloso et al. 7 Veloso VG, Portela MC, Vasconcellos MTL, Matzenbacher LA, Vasconcelos ALR, Grinsztejn B, et al. HIV testing among pregnant women in Brazil: rates and predictors. Rev Saúde Pública 2008; 42:859-67., ele define o número de entrevistas realizadas como regra de parada para a amostra consecutiva de dias de pesquisa. O primeiro dia de pesquisa foi selecionado com igual probabilidade durante o ano, como indicado pela expressão (2) da Figura 1. A subtração por um no numerador e no denominador na expressão (2) é justificada pela perda de um grau de liberdade por conta da regra de parada, como definido por Haldane 6 Haldane JBS. On a method of estimating frequencies. Biometrika 1945; 33:222-5..

Para considerar as diferenças no número de nascidos vivos em fins de semana e dias úteis, um mínimo de sete dias consecutivos por hospital foi obrigatório e o tamanho da equipe de campo de cada hospital foi determinado para assegurar tal regra.

Seleção de puérperas

O número de puérperas a serem selecionadas por dia e hospital dependeu do número de nascidos vivos e dos números de turnos de pesquisa e de entrevistadores por hospital e dia. Para definir os números de turnos e dias de pesquisa, foi usado o número médio de nascidos vivos por hospital em 2007 e quatro combinações foram definidas: (1) um entrevistador e um turno para quatro entrevistas no dia; (2) um entrevistador e dois turnos para seis entrevistas no dia; (3) dois entrevistadores e um turno para oito entrevistas no dia; e (4) dois entrevistadores e dois turnos para 12 entrevistas no dia.

Para assegurar a seleção aleatória das puérperas, o escritório central da pesquisa preparou tabelas com os números de ordem da puérperas a serem entrevistadas, segundo o número de nascidos vivos (até 40) e de entrevistas por dia e hospital (4, 6, 8 ou 12). O número de ordem da puérpera foi definido pela ordem de entrada no hospital. Alguns números de ordem adicionais foram selecionados para substituição das não respostas e das puérperas inelegíveis.

Infelizmente, o número de nascidos vivos por dia e hospital não foi digitado dos instrumentos de coleta. Para superar esse problema, os SINASC 2011 e 2012 foram processados para determinar o número de nascidos vivos em cada hospital e dia de pesquisa, para viabilizar o cálculo da probabilidade de inclusão descrita na expressão (3) da Figura 1.

Tratamento das não respostas

Nove hospitais recusaram participar da pesquisa e três estavam com o serviço de maternidade fechado antes do início da pesquisa. O procedimento de substituição para não resposta de hospital consistiu em substituir esse hospital pelo hospital seguinte do estrato, segundo a ordem no cadastro de seleção do primeiro estágio. Apesar desse procedimento, não foi possível substituir dois hospitais privados do estrato de não capitais do Nordeste, como indicado na Tabela 1.

A não resposta de puérperas foi tratada, sempre que possível, pela substituição segundo as tabelas de seleção preparadas para cada hospital ou pelo procedimento de amostragem inversa usado na seleção dos dias de pesquisa (mais dias de pesquisa foram adicionados à amostra do hospital, até que fosse atingido o número de 90 entrevistas completas no hospital). No caso de o serviço de maternidade ser interrompido durante o processo de pesquisa (obras na maternidade, por exemplo) o processo de amostragem inversa de dias foi interrompido, reiniciando tão logo a maternidade voltasse a funcionar.

Em um total de 1.356 puérperas selecionadas houve substituição, 15% por saída do hospital e 85% por recusa da puérpera. O tamanho da amostra foi composto por 23.940 puerperas entrevistadas em 266 hospitais. Durante o processamento, registros sem informação da puérpera ou sem os dados médicos do recém- nascido foram excluídos e o tamanho final da amostra foi de 23.894 puérperas (Tabela 1).

Ponderação da amostra e calibração dos pesos amostrais

Como indicado na Figura 1, os pesos amostrais básicos foram calculados pelo produto dos inversos das probabilidades de inclusão em cada estágio da amostra.

Como é usual nas pesquisas da estatística oficial (segundo Silva 8 Silva PLN. Calibration estimation: when and why, how much and how. Rio de Janeiro: Instituto Brasileiro de Geografia e Estatística; 2004. (Textos para Discussão da Diretoria de Pesquisas, 14).), a calibração dos pesos amostrais básicos foi realizada para assegurar a coerência entre as estimativas baseadas na amostra e totais populacionais conhecidos e obtidos por fonte externa à pesquisa. Adicionalmente, a calibração pode, até certo ponto, compensar vieses potencias de amostragem e de não resposta.

Considerando que o trabalho de campo foi conduzido em 2011 (e início de 2012 para poucos hospitais), pareceu apropriado manter a coerência entre as estimativas e o total de nascidos vivos obtido com base no SINASC 2011 para os hospitais no cadastro de seleção do primeiro estágio da amostra, isto é, aqueles com 500 partos ou mais em 2007.

Por essa razão, um procedimento de calibração por razão dos pesos amostrais básicos foi realizado em cada estrato de seleção, como indicado pela expressão (6) da Figura 1.

Resultados comparando os totais populacionais obtidos com o emprego de ambos os pesos amostrais, os básicos e os calibrados, são apresentados na Tabela 2. Como esperado, esses resultados mostram a coerência entre os totais estimados com os pesos amostrais calibrados e os totais populacionais conhecidos pelo SINASC 2011. Também como esperado, a calibração conduz a um pequeno aumento na variação dos pesos calibrados em relação aos pesos básicos, como mostra a Tabela 3. Esse aumento na variação dos pesos é o preço para obter a coerência das estimativas.

Tabela 2
Número de nascidos vivos na população de pesquisa e estimativas do número de nascidos vivos obtidas por pelos pesos básicos e calibrados, segundo a macrorregião e o tipo de hospital.

Tabela 3
Resumo das estatísticas das distribuições dos pesos amostrais básicos e calibrados.

Pesos amostrais para as duas ondas de seguimentos telefônicos

Duas ondas de entrevistas telefônicas foram realizadas 06 e 12 meses depois da entrevista no hospital. Como esperado, não foi possível contatar todas as puérperas entrevistadas na pesquisa de base nos hospitais, nas duas ondas de seguimento telefônico. Algumas possibilidades poderiam ser usadas para corrigir a não resposta: (1) imputar de forma probabilística os dados das não respondentes; (2) tratar o conjunto de respostas como uma subamostra da pesquisa de base nos hospitais; (3) modelar a probabilidade de resposta em cada seguimento como uma função das variáveis obtidas na pesquisa de base e usá-la para derivar ajustes de peso de não resposta para as mulheres que responderam cada seguimento.

Considerando as informações de resposta obtidas nos seguimentos, apresentadas na Tabela 3, observa-se que 67,4% e 49,9% das mulheres entrevistadas na pesquisa de base responderam ao primeiro e segundo seguimentos, respectivamente. Por causa das taxas elevadas de não resposta, as duas primeiras opções não foram consideradas alternativas adequadas para tratamento da não resposta.

Assim, a solução adotada foi modelar as probabilidades de resposta pelo uso das informações disponíveis sobre as variáveis coletadas na pesquisa de base. O procedimento usado foi proposto por Little 9 Little RJ. Survey nonresponse adjustments. International Statistical Review 1986; 54:139-57. e também está descrito em Lepkowski 1010  Lepkowski J. Non-observation error in household surveys in developing countries. In: Department of Economic and Social Affairs, Statistics Division, editor. Household surveys in developing and transition countries. New York: United Nations; 2005. p. 149-69. (Series F, 96). e em Brick & Montaquila 1111  Brick JM, Montaquila JM. Nonresponse and weighting, In: Pfeffermann D, Rao CR, editors. Handbook of statistics 29A. Sample surveys: design, methods and applications. Philadelphia: Elsevier; 2009. p. 163-85..

A ideia geral que norteia o procedimento usado para obter os pesos amostrais de cada seguimento telefônico pode ser descrita em quatro passos, como apresentado na Figura 2.

Figura 2
Modelando probabilidades de resposta para calcular ajustes para os pesos dos dois seguimentos.

No primeiro passo, um modelo logístico é ajustado para explicar a probabilidade de resposta no seguimento para cada puérpera na pesquisa de base, usando as informações disponíveis na entrevista hospitalar e a indicadora de resposta no seguimento. Esse procedimento é aplicado independentemente para cada seguimento.

No segundo passo, os valores preditos das probabilidades de resposta em cada seguimento são estimados pelo uso do modelo ajustado para cada seguimento no passo 1.

No terceiro passo, para cada seguimento, os quintis das probabilidades preditas de resposta são usados para definir cinco classes de ajustamento de pesos. Em cada classe, a taxa de resposta é estimada pela razão entre a soma dos pesos amostrais calibrados dos respondentes no seguimento e o total dos pesos amostrais calibrados das puérperas da pesquisa de base, ambos na classe considerada, conforme mostra a expressão (9) da Figura 2.

No último passo, para cada seguimento é calculado o peso ajustado da mulher que respondeu ao seguimento pela razão entre seu peso amostral calibrado na pesquisa de base e a taxa de resposta estimada para a classe em que a mulher se encontra.

Para os modelos de probabilidade de resposta, o conjunto potencial de variáveis inicialmente consideradas foi: macrorregião; capital ou não capital; tipo do hospital (público, privado ou misto); classe socioeconômica da puérpera (A+B, C, D+E); pagamento do parto (público, plano de saúde privado, pagamento direto): classe de idade da puérpera (12-19 anos, 20-34 anos, 35 anos ou mais); “Você tem algum trabalho no qual ganhe dinheiro?” (sim, não); “Você estava satisfeita com a gestação no início?” (sim, não); “Natimorto ou óbito neonatal do recém-nascido?” (sim ou não); raça ou cor da pele (branca, preta, parda, amarela ou indígena); “Intercorrências obstétricas na gestação para desfecho perinatal negativo?” (sim, não); e, somente para o segundo seguimento, se a puérpera respondeu ao primeiro seguimento (sim, não).

Para o primeiro seguimento, as variáveis preditoras significantes foram as três variáveis que definem o estrato (macrorregião, capital ou não, e tipo do hospital), a classe socioeconômica da puérpera e a classe de idade da puérpera.

Para o segundo seguimento, as variáveis significantes foram as mesmas cinco variáveis significantes listadas acima, acrescidas das variáveis “Você tem algum trabalho no qual ganhe dinheiro?”, “Você estava satisfeita com a gestação no início?”, e “Natimorto ou óbito neonatal do recém-nascido?”.

Cabe observar que, na correção do peso amostral do seguimento (terceiro passo), as probabilidades de resposta preditas não foram usadas diretamente para ajustar os pesos amostrais calibrados da pesquisa de base em cada seguimento para evitar uma variação indesejável nos pesos finais. De fato, Kish 1212  Kish L. Weigthing for unequal Pi. Journal of Official Statistics 1992; 8:183-200. demonstra que pesos amostrais podem reduzir viés, mas frequentemente aumentam a variância do estimador ponderado, uma vez que a razão entre a variância do estimador do estimador ponderado e a variância do correspondente estimador não ponderado é aproximadamente igual a um mais o quadrado do coeficiente de variação dos pesos amostrais. Logo, os procedimentos adotados no terceiro e quarto passos conduzem a uma solução melhor na correção de não resposta dos pesos amostrais dos seguimentos, enquanto mantêm o aumento da variabilidade dos pesos causado pela correção de não resposta ao mínimo necessário (Tabela 3).

Agradecimentos

Aos coordenadores regionais e estaduais, supervisores, entrevistadores e equipe do projeto, e às puérperas que participaram, tornando possível este estudo.

Referências

  • 1
    do Carmo Leal M, da Silva AA, Dias MA, da Gama SG, Rattner D, Moreira ME, et al. Birth in Brazil: national survey into labour and birth. Reprod Health 2012; 9:15.
  • 2
    Cochran WG. Sampling techniques. 3rd Ed. New York: John Wiley & Sons; 1977.
  • 3
    Altman DG. Practical statistics for medical research. London: Chapman and Hall, 1991.
  • 4
    Fleiss JL. Statistical methods for rates and proportions, 2nd Ed. New York: John Wiley & Sons; 1981.
  • 5
    Madow WG. On the theory of systematic sampling, II. Annals of Mathematical Statistics 1949; 20: 333-54.
  • 6
    Haldane JBS. On a method of estimating frequencies. Biometrika 1945; 33:222-5.
  • 7
    Veloso VG, Portela MC, Vasconcellos MTL, Matzenbacher LA, Vasconcelos ALR, Grinsztejn B, et al. HIV testing among pregnant women in Brazil: rates and predictors. Rev Saúde Pública 2008; 42:859-67.
  • 8
    Silva PLN. Calibration estimation: when and why, how much and how. Rio de Janeiro: Instituto Brasileiro de Geografia e Estatística; 2004. (Textos para Discussão da Diretoria de Pesquisas, 14).
  • 9
    Little RJ. Survey nonresponse adjustments. International Statistical Review 1986; 54:139-57.
  • 10
    Lepkowski J. Non-observation error in household surveys in developing countries. In: Department of Economic and Social Affairs, Statistics Division, editor. Household surveys in developing and transition countries. New York: United Nations; 2005. p. 149-69. (Series F, 96).
  • 11
    Brick JM, Montaquila JM. Nonresponse and weighting, In: Pfeffermann D, Rao CR, editors. Handbook of statistics 29A. Sample surveys: design, methods and applications. Philadelphia: Elsevier; 2009. p. 163-85.
  • 12
    Kish L. Weigthing for unequal Pi. Journal of Official Statistics 1992; 8:183-200.

  • Financiamento
    Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq); Departamento de Ciência e Tecnologia, Secretaria de Ciência, Tecnologia e Insumos Estratégicos, Ministério da Saúde; Escola Nacional de Saúde Pública Sergio Arouca, Fundação Oswaldo Cruz (INOVA Project); e Fundação de Amparo à pesquisa do Estado do Rio de Janeiro (FAPERJ).

Datas de Publicação

  • Publicação nesta coleção
    Ago 2014

Histórico

  • Recebido
    09 Out 2013
  • Revisado
    26 Fev 2014
  • Aceito
    24 Mar 2014
Escola Nacional de Saúde Pública Sergio Arouca, Fundação Oswaldo Cruz Rio de Janeiro - RJ - Brazil
E-mail: cadernos@ensp.fiocruz.br