Ученые научились предсказывать коронавирусные вспышки по постам в Twitter

По словам исследователей, благодаря данному проекту нейросеть может давать прогноз дальнейшего развития пандемии коронавируса на несколько дней, или даже месяцев, вперед, всего лишь анализируя публикации в Twitter.

Как отмечает «Газета.Ru», различные языковые модели уже использовались ранее для обнаружения вспышек других инфекционных заболеваний (к примеру, вызванных вирусами Эбола и Зика) на основе постов в Twitter, однако все они были обучены на английском языке.

В рамках данного проекта ученые обучили нейросеть русскому языку.

Исследователи Курчатовского института выбрали около 10 тыс. русскоязычных постов, в которых упоминались такие слова, как «COVID-19», «коронавирус», «пандемия», «ПЦР-тест». Для эксперимента был взят период с марта 2020 года по 1 марта 2021 года.

Таким образом, после обучения нейросеть начала находить целевые твиты пользователей, которые могли быть заражены COVID-19.

Результаты работы искусственного интеллекта сравнили с официальной статистикой за указанный период. Оказалось, что количество инфицированных по России, отфильтрованных нейросетью в Twitter, аналогично официальной статистике случаев заболевания COVID-19 в России за тот же временной период, – отмечается в результатах эксперимента.

Ученые считают, что разработанная ими модель может быть применена для дальнейшего прогнозирования динамики развития эпидемии, в частности, для выявления новых симптомов и побочных эффектов.

Автор и участник исследования объяснил, каким образом система может предсказать развитие пандемии.

Сначала собирается определенное количество твитов, которые размечаются на наличие степеней упоминания пандемии и коронавируса. Опираясь на собранную информацию, официальные данные и прогнозы специалистов, мы пытаемся выудить прогноз. То есть мы стараемся собрать опережающую информацию по развитию пандемии. Тут важно сказать, что мы таким образом можем предсказать порядка четырех следующих дней.Один из авторов исследования, кандидат физико-математический наук Александр Сбоев

Но у данной модели есть и недостаток – она не может определить, насколько пост правдив.

Конечно, она это не определяет. В данном случае мы опираемся только на то, что пользователь пишет в интернете. Если он написал, что плохо себя чувствует, у него температура, и вчера он ходил к зараженному – то мы его вставим в категорию заболевших. Или, например, если он рассказал о положительном ПЦР-тесте – он попадает в ту же категорию. Наша статистика строится только на основании того, что человек пишет. Однако даже так результаты работы нейросети очень схожи с официальной статистикой.Александр Сбоев

Инженер лаборатории легких материалов и конструкций Санкт-Петербургского политехнического университета имени Петра Великого (СПбПУ) Дмитрий Курушкин считает, что разработанный способ анализа интернет-пространства может быть использован не только для классификации твитов касательно COVID-19, но и для других целей.