• use of big data in healthcare in Brazil: perspectives for the near future Aplicações da Epidemiologia

    Chiavegatto Filho, Alexandre Dias Porto

    Abstract in Portuguese:

    O uso de big data tem crescido em todas as áreas da ciência nos últimos anos. Existem três áreas auspiciosas para o uso de big dataem saúde: medicina de precisão (precision medicine); prontuários eletrônicos do paciente; e internet das coisas (internet of things). Entre as linguagens de programação mais utilizadas em big data, duas têm se destacado nos últimos anos: R e Python. Em relação às novas técnicas estatísticas, espera-se que técnicas de machine learning(principalmente as árvores de classificação e regressão), metodologias para controlar por associações espúrias (como a correção de Bonferroni e a taxa de falsas descobertas) e metodologias para a redução da dimensão dos dados (como a análise de componentes principais e o propensity score matching) sejam cada vez mais utilizadas. A questão da privacidade será também cada vez mais importante na análise de dados. O uso de big data na área da saúde trará importantes ganhos em termos de dinheiro, tempo e vidas e precisa ser ativamente defendido por cientistas de dados e epidemiologistas.

    Abstract in Spanish:

    El uso de "big data" ha venido creciendo en todas las áreas científicas durante los últimos años. Existen tres áreas propicias para el uso de "big data" en salud: medicina de precisión (precision medicine); archivos electrónicos de pacientes; e internet de las cosas (internet of things). Entre los idiomas de programación más usados en "big data", dos se han destacado en los últimos años: R y Python. En relación a las nuevas técnicas estadísticas, se espera que técnicas como machine learning(principalmente los arboles de clasificación y regresión), metodologías para controlar asociaciones espurias (como la corrección de Bonferroni y la tasa de falsos descubrimientos) y metodologías para reducción de dimensión de datos (como análisis de componentes principales e propensity score matching) sean cada vez más usados. La cuestión de la privacidad será también cada vez más importante en el análisis de datos. El uso de "big data" en el área de la salud traerá ganancias importantes en términos de dinero, tiempo y vidas. Y necesita ser defendido activamente por científicos de datos y epidemiólogos.

    Abstract in English:

    The use of big data has increased in recent years in all scientific areas. There are currently three promising areas for the use of big data in healthcare: precision medicine, electronic medical records and the internet of things. Two programming languages have gained momentum in data science: R and Python. Regarding the statistical techniques, it is expected that machine learning (especially classification and regression trees), methodologies for controlling spurious associations (such as Bonferroni correction and false discovery rate) and methodologies for dimension reduction (such as principal components analysis and propensity scores) will be increasingly used. Privacy is an issue that will become ever more important in data analysis. The use of big data in healthcare will bring enormous gains in terms of costs, time and lives saved, and needs to be actively defended by data scientists and epidemiologists.
Secretaria de Vigilância em Saúde - Ministério da Saúde do Brasil Brasília - Distrito Federal - Brazil
E-mail: leilapgarcia@gmail.com