Modelos predictivos de la epidemia de COVID-19 en España con curvas de Gompertz

Predictive models of the COVID-19 epidemic in Spain with Gompertz curves

Pablo Sánchez-Villegas Antonio Daponte Codina Acerca de los autores

Resumen

Durante la crisis de salud internacional provocada por la pandemia de COVID-19, además de conocer los datos sobre contagios, muertes y ocupación de camas hospitalarias también es necesario hacer predicciones que ayuden a la gestión de la crisis por parte de las autoridades sanitarias. El presente trabajo tiene como objetivo describir la metodología utilizada para la elaboración de modelos predictivos de contagios y defunciones para la epidemia de COVID-19 en España basados en curvas de Gompertz. La metodología se aplica al total del país y a cada una de sus comunidades autónomas. De acuerdo con los datos oficiales publicados a la fecha de realización de este trabajo, y a través de los modelos descritos, estimamos un total de alrededor de 240.000 contagiados y 25.000 fallecidos al final de la epidemia. Pronosticamos el final de la epidemia entre los meses de junio y julio de 2020.

Palabras clave:
COVID-19; Predicción; Mortalidad

Abstract

During the international health crisis caused by the COVID-19 pandemic, it is necessary not only to know the data on infections, deaths and the occupation of hospital beds, but also to make predictions that help health authorities in the management of the crisis. The present work aims to describe the methodology used to develop predictive models of infections and deaths for the COVID-19 epidemic in Spain, based on Gompertz curves. The methodology is applied to the country as a whole and to each of its Autonomous Communities. Based on the official data available on the date of this work, and through the models described, we estimate a total of around 240.000 infected and 25.000 deaths at the end of the epidemic. At a national level, we forecast the end of the epidemic between June and July 2020.

Keywords:
COVID-19; Forecasting; Mortality

Introducción

Durante la crisis de salud internacional provocada por la pandemia de COVID-19 se hace necesario no solo conocer los datos sobre contagios, muertes y ocupación hospitalaria, sino también hacer predicciones que ayuden a la propia gestión de la crisis por parte de las autoridades sanitarias.

El presente trabajo tiene como objetivo describir la metodología utilizada para la elaboración de modelos predictivos de contagios y defunciones para la epidemia de COVID-19 en España. Los datos utilizados, desde el 4 de marzo hasta el 22 de abril de 2020, fueron los datos oficiales que ofrecía diariamente el Ministerio de Sanidad de España11. Ministerio de Sanidad Profesionales. Documentos técnicos para profesionales Coronavirus. (Consultado el 24/4/2020.) Disponible en: https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov-China/documentos.htm.
https://www.mscbs.gob.es/profesionales/s...
.

Exposición del método

Para las modelizaciones se siguió el siguiente esquema, simplificación del descrito por Lega y Brown22. Lega J, Brown HE. Data-driven outbreak forecasting with a simple nonlinear growth model. Epidemics. 2016;17:19-26.:

  • Paso 1: se ajustaron los valores acumulados a una curva G(t) (Fig. 1, curva de casos acumulados).

  • Paso 2: se calculó la primera derivada g(t) de la curva anterior (Fig. 1, curva de casos diarios).

Figura 1.
Casos estimados en España según el modelo del día 19 de abril (día 47 de la serie de datos registrados). La curva de casos acumulados se corresponde con G(t) y la curva de casos diarios se corresponde con g(t). En el eje de abscisas aparece el día de la epidemia, considerando el inicio como el primer día de la serie de datos.

Con los datos acumulados diarios se calculó la curva de Gompertz33. Zwietering MH, Jongenburger I, Rombouts FM, et al. Modeling of the bacterial growth curve. Appl Environ Microbiol. 1990;56:1875-81. de tres parámetros que mejor se ajustaba en cada caso a los datos:

G(t)=a e-eb(t-c)

Se utilizó el modelo de crecimiento de Gompertz en lugar de otros, como el logístico o el de Bertalanffy, por haber demostrado ser algo más preciso para predecir los casos acumulados fuera de la provincia china de Hubei44. Jia L, Li K, Jiang Y, et al. Prediction and analysis of coronavirus disease 2019. Cornell University;. 2020. Disponible en: http://arxiv.org/abs/2003.05447.
http://arxiv.org/abs/2003.05447...
, lugar donde se originó la pandemia de COVID-19.

Para el ajuste de la curva de Gompertz a los datos acumulados observados se usaron los algoritmos de Nelter-Mead55. Nelder JA, Mead R. A simple method for function minimization. Comput J. 1965;7:308-13. Disponible en: https://academic.oup.com/comjnl/articlelookup/doi/10.1093/comjnl/7.4.308.
https://academic.oup.com/comjnl/articlel...
implementados por Nash66. Nash JC. Compact numerical methods for computers: linear algebra and function minimisation. Bristol and New York: Hilger; 1990.. El software utilizado para los cálculos fue R77. R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria; 2019. Disponible en: https://www.r-project.org/. a través del paquete drc88. Ritz C, Baty F, Streibig JC, et al. Dose-response analysis using R. PLoS One. 2015;10:e0146021..

De esta manera obtuvimos modelizada la curva de casos acumulados, con la que pudimos estimar cuántos casos acumulados se observarían cualquier día determinado. Esta curva depende exclusivamente de los casos acumulados observados, ya que es la única información que la nutre.

El coeficiente a de la curva se corresponde con su asíntota superior, lo que puede interpretarse como el «horizonte» de la epidemia, esto es, el número de casos esperados al final de esta.

La primera derivada de la función anterior99. Clausen A, Sokol S. {Deriv}: R-based symbolic differentiation. 2019. Disponible en: https://cran.r-project.org/package=Deriv.
https://cran.r-project.org/package=Deriv...
, la interpretamos como la curva del número de casos diarios:

g(t)=dGdt=a b eb(t-c)e-eb(t-c)

A través de ella se pueden calcular los valores esperados los días futuros. El punto donde esta función alcanza el máximo puede interpretarse como el pico de la epidemia.

Aplicación práctica

En el momento en que se publican nuevos datos diarios se vuelve a calcular un modelo según el esquema anterior para los contagios y otro para las defunciones en cada comunidad autónoma y para el total del país.

Para el presente trabajo se calcularon 50 modelos de contagios y 50 de fallecimientos para cada una de las comunidades autónomas (dos modelos diarios, desde el 4 de marzo hasta el 22 de abril, cada día un modelo).

Según esta metodología, el pico de contagios se alcanzó en España aproximadamente a finales de marzo, mientras que el pico de defunciones se estimó a primeros de abril de 2020. Los resultados concretos de los picos de las curvas, además de los horizontes, pueden consultarse en la app interactiva: https://www.easp.edu.es/data-apps/covid-easp/covid19_ESP/

La Figura 2 muestra la evolución de los horizontes (coeficientes a de los modelos) que se fueron calculando diariamente y a lo largo del tiempo. A modo de ejemplo, los modelos predecían más de 900.000 casos de contagio y unas 67.000 muertes en torno al 27 de marzo para el total de España, y a medida que se sucedieron los días estos horizontes estimados descendieron hasta situarse alrededor de 240.000 contagios y 25.000 fallecidos. A partir de los primeros días de abril, esas estimaciones permanecen estables a lo largo del tiempo. De manera general se observa que, en todos los casos, al principio el comportamiento de la serie de horizontes era algo errática, pero a medida que avanzaron los días el parámetro fue estabilizándose, lo cual se puede interpretar como medida de robustez de la estimación del número de contagiados y de fallecidos para cada comunidad autónoma.

Figura 2
A). Evolución de los “horizontes” (coeficientes “a” de los modelos con los intervalos de confianza con un nivel de confianza del 95%) según se añadían nuevos datos diarios a las series estudiadas. B). Estos valores representan el número total de casos de contagio estimados al final de la epidemia para cada Comunidad Autónoma y para el total nacional.

A partir de las curvas de contagios diarios y de defunciones diarias (g(t)) se hizo una estimación de las fechas en que no se observarán más contagios ni más defunciones (Tabla 1). Hay que hacer notar que tanto las predicciones de estas fechas como las de los horizontes son orientativas y no serán precisas si la situación epidemiológica varía sustancialmente.

Tabla 1.
Estimación de los coeficientes y de las fechas del fin de la epidemia según los datos a 22/4/2020

Conclusiones

Presentamos en este trabajo una metodología de fácil uso para modelizar epidemias como la de COVID-19. Consideramos que en esta sencillez radica su fortaleza, ya que se utilizan exclusivamente los datos sobre contagios y defunciones que después se predicen, sin contar con ningún tipo de covariable externa para su cálculo. Esto, por una parte, podría parecer una debilidad al no añadir más información a los modelos, pero así se evita el ruido que podrían introducir esas hipotéticas variables externas. Por otra parte, la ausencia de más información hace que la calidad de las predicciones dependa mucho de la calidad de los datos.

Hay que tener en cuenta que las predicciones de los modelos de contagios, sobre todo a partir de aproximadamente la tercera semana de abril de 2020, pueden sufrir grandes variaciones con respecto a los valores observados por los cambios en la definición de caso. No ocurre lo mismo con respecto a los modelos de defunciones, que son más robustos a lo largo del tiempo al no haber sufrido grandes cambios en su definición.

Con respecto a las fechas estimadas del fin de la epidemia en cada comunidad autónoma, hay que tener en cuenta que son estimaciones aproximadas y que pueden sufrir alteraciones si se producen cambios bruscos en las tendencias. De hecho, los modelos predecían horizontes de muchos más casos y defunciones a finales de marzo que a partir de la segunda quincena de abril, lo que puede deberse a las medidas de confinamiento tomadas por las autoridades, que tienen un efecto en las curvas de la epidemia a partir de al menos una semana desde su implantación1010. Figueiredo A, et al. Impact of lockdown on COVID-19 incidence and mortality in China: an interrupted time series study. Bull World Heal Organ. 2020 [Submitted]. Disponible en: https://www.who.int/bulletin/online first/20256701.pdf?ua=1.
https://www.who.int/bulletin/online firs...
.

En cuanto al fin de la epidemia, las fechas en las que se espera que no haya defunciones son anteriores a las fechas en las que se espera que no haya contagios, y esto tiene mucho sentido dado que no todas las personas contagiadas fallecerán y que el porcentaje de personas que sobreviven a la enfermedad es mucho mayor que el de las personas que fallecen.

En cualquier caso, en este trabajo presentamos una metodología utilizada para modelizar la epidemia de COVID-19 en España y en sus comunidades autónomas, y el valor que le damos es referente al contexto temporal de la epidemia, aunque somos conscientes de que pasada la crisis esta metodología puede ser matizada.

Bibliografía

  • 1
    Ministerio de Sanidad Profesionales. Documentos técnicos para profesionales Coronavirus. (Consultado el 24/4/2020.) Disponible en: https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov-China/documentos.htm
    » https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov-China/documentos.htm
  • 2
    Lega J, Brown HE. Data-driven outbreak forecasting with a simple nonlinear growth model. Epidemics. 2016;17:19-26.
  • 3
    Zwietering MH, Jongenburger I, Rombouts FM, et al. Modeling of the bacterial growth curve. Appl Environ Microbiol. 1990;56:1875-81.
  • 4
    Jia L, Li K, Jiang Y, et al. Prediction and analysis of coronavirus disease 2019. Cornell University;. 2020. Disponible en: http://arxiv.org/abs/2003.05447
    » http://arxiv.org/abs/2003.05447
  • 5
    Nelder JA, Mead R. A simple method for function minimization. Comput J. 1965;7:308-13. Disponible en: https://academic.oup.com/comjnl/articlelookup/doi/10.1093/comjnl/7.4.308
    » https://academic.oup.com/comjnl/articlelookup/doi/10.1093/comjnl/7.4.308
  • 6
    Nash JC. Compact numerical methods for computers: linear algebra and function minimisation. Bristol and New York: Hilger; 1990.
  • 7
    R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria; 2019. Disponible en: https://www.r-project.org/.
  • 8
    Ritz C, Baty F, Streibig JC, et al. Dose-response analysis using R. PLoS One. 2015;10:e0146021.
  • 9
    Clausen A, Sokol S. {Deriv}: R-based symbolic differentiation. 2019. Disponible en: https://cran.r-project.org/package=Deriv
    » https://cran.r-project.org/package=Deriv
  • 10
    Figueiredo A, et al. Impact of lockdown on COVID-19 incidence and mortality in China: an interrupted time series study. Bull World Heal Organ. 2020 [Submitted]. Disponible en: https://www.who.int/bulletin/online first/20256701.pdf?ua=1
    » https://www.who.int/bulletin/online first/20256701.pdf?ua=1

  • Financiación

    Ninguna.

Fechas de Publicación

  • Publicación en esta colección
    15 Abr 2022
  • Fecha del número
    Nov-Dec 2021

Histórico

  • Recibido
    26 Abr 2020
  • Acepto
    15 Mayo 2020
  • Publicado
    29 Mayo 2020
Sociedad Española de Salud Pública y Administración Sanitaria (SESPAS) Barcelona - Barcelona - Spain
E-mail: gs@elsevier.com