Sygnity

Artykuły

Sprawdzamy, jak Sygnity Forecast sprawdzi się w prognozowaniu liczby zachorowań na Covid-19

Pandemia wpłynęła na sytuację społeczną i gospodarczą krajów na całym świecie i pokazała, że umiejętność trafnego przewidywania przyszłych zachowań rynku jest dzisiaj niezwykle istotna. I chociaż wielu zjawisk nadal nie jesteśmy w stanie całkowicie przewidzieć, to dla niektórych możemy wykonać wiarygodną prognozę.

Prognozowanie liczby zachorowań na COVID-19

Prognozowanie jest kluczem do efektywnego zarządzania w wielu dziedzinach gospodarki a dokładne i dostarczone z odpowiednim wyprzedzeniem dane umożliwiają podejmowanie strategicznych decyzji w biznesie.

W naszym zespole na co dzień zajmujemy się tematem prognozowania. W tym celu wykorzystujemy jedno z naszych narzędzi – system Sygnity Forecast, który na podstawie zgromadzonych danych generuje prognozy zapotrzebowania na media (takie jak energia, gaz czy ciepło), wykorzystując do tego modele automatyczne klasy ARIMA, sieci neuronowe oraz modele machine learning.

W obecnej sytuacji postanowiliśmy jednak wykorzystać Sygnity Forecast i nasze doświadczenie w pracy z przedsiębiorstwami energetycznymi i przemysłowymi do czegoś innego –  zaprognozowania, jak będzie wzrastać liczba potwierdzonych przypadków zachorowań na Covid-19 w Polsce.

Dane

Jedną z istotnych rzeczy w prognozowaniu są dane. Pandemia Covid-19 jest zjawiskiem niezwykle złożonym, na który wpływ ma dużo różnych czynników. Większość z nich jest trudno mierzalna (specyfika kulturowa, mobilność ludności, zastosowane restrykcje i poziom ich przestrzegania). Pozyskanie takich danych w wielu przypadkach, jeżeli w ogóle możliwe, jest bardzo czasochłonne.

Niniejsza analiza ma na celu przedstawienie możliwości wykorzystania systemu Sygnity Forecast do przeprowadzenia szybkiej analizy i wyznaczenia stosunkowo precyzyjnych prognoz, przy zachowaniu niskich kosztów i czasu potrzebnego na wykonanie takiej pracy w tak nietypowej sytuacji jak obecna.

Dlatego w podejściu do prognozowania wzrostu zachorowań postanowiliśmy wykorzystać podobieństwo krzywych zachorowań.

Do analizy wybraliśmy dane na temat skumulowanej liczby zachorowań na Covid-19 od dnia przekroczenia granicy 100 zachorowań w danym kraju. Na podstawie tych danych, przy wykorzystaniu autorskich algorytmów wyszukiwania zmiennych skorelowanych, wybraliśmy kraje o podobnej do Polski charakterystyce zachorowań w ciągu pierwszych 25 dni po przekroczeniu granicy 100 zakażeń. W różnych krajach mógł to być inny dzień. To jedno, proste kryterium pozwoliło nam szybko i efektywnie zidentyfikować kraje w podobnej do nas sytuacji bez wgłębiania się w specyfikę każdego z krajów. Pokazuje to poniższy wykres.

Jak widać, tempo pojawiania się nowych potwierdzonych przypadków zachorowań w Polsce w pierwszych 25 dniach było bardzo zbliżone do Australii, Czech, Malezji, Norwegii i Szwecji. Na wykresie widać, że od 25 dnia zachorowań grupa krajów podobnych do Polski rozdzieliła się na dwie podgrupy – w większości krajów, tempo wzrostu liczby zachorowań zaczęło maleć. Za względu na wprowadzone stosunkowo szybko w naszym kraju liczne restrykcje była nadzieja, że w Polsce również to tempo zacznie maleć. Niestety krzywa zachorowań Polski po 25 dniu w dalszym ciągu rośnie bardzo zbliżając się do krzywej zachorowań w Szwecji, która nie wprowadziła aż tak silnych restrykcji.

Po zidentyfikowaniu krajów podobnych podjęliśmy próbę zaprognozowania liczby zachorowań w kolejnych dniach.

Metodologia

W prognozie wykorzystaliśmy dwa rodzaje modeli: wygładzenia wykładniczego oraz dwa modele machine learning (model wzmocnionych gradientowo drzew decyzyjnych i model wektorów wspierających). Przy wyborze krajów branych pod uwagę w modelach wykorzystaliśmy autorskie algorytmy wyszukiwania zmiennych skorelowanych. Chcieliśmy sprawdzić, który z nich będzie z największą dokładnością potrafił wskazać liczbę potwierdzonych zachorowań na Covid-19 w Polsce. Na początek badania wybraliśmy okres Świąt Wielkanocnych, następnie okresowo (co 3-4 dni) aktualizowaliśmy modele i wyznaczaliśmy kolejne prognozy traktując ten okres jako zbiór testowy do dopracowania modeli. Na wykresie prognozę dla każdego modelu zaznaczyliśmy poszczególnymi kolorami od daty 10 kwietnia.

Poniższy wykres przedstawia, jak rośnie liczba zarażonych od 10 kwietnia oraz jakie wartości przewidziały nasze modele.

Z powyższego wykresu widać również, że modele nieustannie się uczą o czym świadczy załamanie na modelu 3 po 20.04. Model prezentował dość zawyżone prognozy w okresie od 17 do 20.04, ale po zasileniu go nowymi danymi, przedstawił prognozy znacznie bardziej zbliżone do rzeczywistych danych.

Jak widać, z wybranych przez nas modeli najlepiej dotychczas sprawdził się Model 1 (model wygładzenia wykładniczego), dla którego średni bezwzględny błąd procentowy za okres 10.04-04.05.2020 wynosi 1,2%.

Pokazanie trafności prognozy za okres, który już upłynął byłoby jednak zbyt łatwe. Dlatego postanowiliśmy przygotować i opublikować prognozę na kolejny okres, którą będziemy na bieżąco uaktualniać w postach na Linkedin Sygnity. Poniżej wyniki tej prognozy zaprezentowane na wykresie.

Wnioski

Jak widać, najdokładniejszą jak na razie prognozę uzyskaliśmy dzięki zastosowaniu modelu wygładzenia wykładniczego – średni bezwzględny błąd procentowy w żadnym z prognozowanych dni (od 10.04 do 03.05) nie przekroczył 3%. Dzięki Sygnity Forecast byliśmy w stanie przewidzieć, w jakim tempie będą pojawiać się nowe potwierdzone przypadki zachorowań na Covid-19 w Polsce.

To jednak jeszcze nie koniec możliwości Sygnity Forecast. Możemy dalej rozbudowywać analizę o kolejne zmienne, sprawdzając na przykład, jaki wpływ na badane zjawisko będzie miała temperatura, albo zawężając próbę do krajów o podobnej do Polski strukturze demograficznej.

Zastosowane przez nas podejście, polegające na budowie modelu na podstawie podobieństwa krzywych na tak wczesnym etapie pandemii ma jednak pewne słabe strony. Modele mogą przestać się sprawdzać w sytuacji, gdy nastąpi znaczne odchylenie krzywej dla Polski od krzywych przyjętych do wyznaczenia prognozy. Wówczas należałoby przeprowadzić cały proces identyfikacji krzywych o podobnym przebiegu jeszcze raz biorąc pod uwagę dłuższy okres i bardziej aktualne dane.

Skoro więc Sygnity Forecast dostarcza sprawdzalnych prognoz w zakresie zachorowań, to warto go zastosować do prognozowania innych zjawisk w przedsiębiorstwie?

Możliwości zastosowania Sygnity Forecast:

  1. Prognozowanie zapotrzebowania na energię
  2. Prognozowanie produkcji energii ze źródeł OZE
  3. Prognozowanie zapotrzebowania na gaz
  4. Prognozowanie zapotrzebowania na wodę
  5. Prognozowanie natężenia ruchu klientów w sklepach i urzędach
  6. Prognozowanie liczby pracowników potrzebnych do obsługi różnych procesów w przedsiębiorstwach produkcyjnych
  7. Zarządzanie mediami w przedsiębiorstwie

Korzyści:

Trafniejsze i dostarczone z odpowiednim wyprzedzeniem prognozy zapotrzebowania i produkcji energii pozwalają na zoptymalizowanie kosztów energii oraz zrównoważenie zapotrzebowania i produkcji mediów. W efekcie system przynosi oszczędności i pozwala na sprawniejsze zarządzanie mediami.

Dodatkowo, dysponując tak wszechstronnym narzędziem do prognozowania, firmy mogą bez problemu przewidywać wiele zmiennych, od których zależy ich funkcjonowanie a dzięki temu optymalizować procesy i maksymalizować zyski.

Źródło danych: https://ourworldindata.org/coronavirus#testing-for-covid-19

Dane na dzień 5 maja 2020.