Научная
деятельность
Университет ИТМО

Попасть в соцсети: как ученые могут использовать фото вашего обеда в Instagram

Сотрудники НИИ наукоемких компьютерных технологий Университета ИТМО уже долгое время работают с анализом данных социальных сетей. В ходе последних исследований разработчики научились считывать эмоции пользователей Instagram, Twitter и других социальных сетей по их постам и использовать результаты анализа как в развлекательных, так и в социально значимых сферах. ITMO.NEWS рассказывает о последних проектах в области анализа данных социальных сетей и тех результатах, которые удалось достичь разработчикам.

Анализ эмоций

Инструмент анализа эмоций определенной группы людей по их постам в социальных сетях сотрудники НИИ наукоемких компьютерных технологий Университета ИТМО Ксения Мухина и Василий Бойчук, а также их коллеги научились использовать для совершенно разных сфер и задач. Первое масштабное исследование в этой области разработчики провели для создания инновационного стенда для детского лагеря «Сириус» в Сочи. Идея проекта – показать город и эмоции, которые он вызывает у людей, в единстве (визуализацию собранных данных разработчики разместили на карте города в интерактивном приложении).  Для анализа данных исследователи выбрали три большие зоны – Сочи, Красную поляну и Адлер, а в качестве основных социальных сетей выбрали Instagram, Twitter и «ВКонтакте». 

Исследователям предстояло собрать необходимый объем данных и высчитать с помощью алгоритма эмоциональную оценку: в каждом посте были фотографии, по которым оценивались эмоции на лицах людей. В основе такого распознавания лежат сверточные нейронные сети (CNN), за счет которых выстроен точный алгоритм по оценке эмоций. Каждому выражению лица соответствует набор из восьми эмоций: злоба, пренебрежение, нейтральное состояние, печаль, удивление, счастье и грусть. Помимо эмоциональной оценки фотографий, оценивался и сам пост комплексно (насколько он позитивный или негативный). Совокупная оценка поста уже после накладывалась визуально на карту, и у людей появлялась возможность узнать, какое место стимулирует больше радости, а какое – грусти, злобы и так далее.

Так как у автоматических алгоритмов есть некоторый процент погрешности, разработчики позволили людям самостоятельно оценить отобранные публикации, после чего вручную размеченные данные использовались для увеличения точности машинной оценки. Эту же систему разработчики демонстрировали в рамках VK Fest-2016, однако на этот раз территориально исследователи сфокусировались на площади Парка 300-летия, а главной социальной сетью выбрали «ВКонтакте». Идея – интерактивно показать динамику: какие места наиболее интересные, где чаще всего фотографируются и прочее. Результаты обоих проектов можно посмотреть на видео.

Анализ эмоций исследователи использовали в проверке гипотезы, предполагающей наличие взаимосвязи происшествия экстремальных ситуаций на трибунах стадионов во время футбольных матчей и эмоций людей, которые публикуют фотографии в течение этого матча.  Для проведения исследования использовались данные постов в Instagram с указанной локацией. Разработчики собирали данные, опубликованные болельщиками во время матча, и на первом этапе исследования выяснилось, что во время матчей с драками, уровень эмоций «злоба» был в два раза выше, чем в остальных случаях. На основе полученной информации исследователи продолжили разрабатывать метод прогнозирования возникновения драк на стадионах. Эта работа в дальнейшем может перерасти в создание полноценной системы поддержки принятия решений для повышения безопасности во время игры. 

«Сначала мы использовали информацию из СМИ о драках и других экстремальных ситуациях на матчах с участием ФК “Зенит”. Для нас принципиально важно было рассмотреть экстремальные ситуации среди болельщиков на стадионах во время футбольных матчей, для анализа были ценны два фактора – площадка и пользовательский контент. За экстремальные ситуации, помимо драк, также считались использование пиротехники, бросание предметов на трибуны и поле стадиона, демонстрация оскорбительных баннеров, скандирование нетолерантных кричалок и другое. Мы рассматривали матчи в период с 2013 по 2015 годы. Получилось около десяти игр, после чего мы брали и другие команды. Всего матчей с драками было немного, но, когда мы стали работать с официальной статистикой Российского футбольного союза и смотрели не только драки, но и на иные события, которые могут угрожать здоровью и состоянию болельщиков, за три сезона из 700 матчей с экстремальными событиями на трибунах прошли около половины игр. Данные могут быть собраны в любое время (до, во время и после матча). Использованная нами система анализа позволяет на основе ретроспективных данных (данные уже прошедших матчей) и их анализе получать прогноз о возникновении какого-либо неблагоприятного события на трибунах», – рассказывает Василий Бойчук. 

VK fest-2016
VK fest-2016

Туризм

Ксения Мухина совместно с коллегами НИИ наукоемких компьютерных технологий разработала проект, цель которого – предложить туристам лучшие городские места для проведения досуга, «рекомендованные» местными жителями. Такие данные собирались на основе постов в Instagram. Специфика этой социальной сети, по словам Ксении, в том, что люди публикуют в ней больше позитивного контента.

«Если выделить из всех постов в Instagram те, которые были опубликованы местным населением, то можно найти интересные места в городе, которые имеют позитивную оценку, и на основе этого предложить туристам список рекомендованных для посещения мест. Мы тренировались на данных за 2016 год: собранный набор состоит из заполненных профилей 59 024 пользователей. Он содержит 529 251 пост с геолокацией в 17921 уникальном месте в Санкт-Петербурге. 23 596 пользователей были классифицированы как местные жители. В результате мы получили 44 самых интересных для горожан мест. Рекомендуемые места можно разделить на пять категорий: культурные места (театры, музеи и цирки), рестораны (бары, кафе), интересные места города (мосты, части улиц и т. д.), парки и другие вид мест проведения досуга (креативные пространства, студии и т. д.)», – рассказала Ксения Мухина.

Особая задача для системы – отличить туриста от местного жителя. Исследователи предположили, что люди публикуют посты в тот временной промежуток, когда находятся в городе. Также было решено считать, что в год у человека может быть два отпуска по 15 дней, и между этими временными окнами должно быть минимум 30 рабочих дней. Если у пользователя есть посты в городе между этими окнами в течение календарного года, то он определяется системой как местный. Все остальные пользователи социальной сети определяются как туристы и в анализе данных не участвуют. Также по постам туристов разработчики посмотрели самый популярный «туристический» контент в соцсетях и сразу откинули эти данные. Таким образом, традиционные туристические места (Эрмитаж, Русский музей, Петропавловская крепость и пр.) отошли на второй план – остались только те места, которые не входят в список экскурсионных петербургских «must see».  

Анализ теневых рынков

Данные социальных сетей позволяют сегодня анализировать те сферы, которые скрыты от глаз общественности. Так, аспирант кафедры высокопроизводительных вычислений и сотрудник НИИ наукоемких компьютерных технологий Университета ИТМО Даниил Волошин совместно с коллегами провел анализ теневого рынка по предоставлению коммерческих интимных услуг в Санкт-Петербурге. Проект был выполнен в рамках городских исследований, разработчиков интересовала географическая привязка мест, предоставляющих нелегальные услуги такого рода. 

Даниил Волошин, Ксения Мухина и Василий Бойчук
Даниил Волошин, Ксения Мухина и Василий Бойчук

В криминологии существует направление «ecology theory», согласно которому преступления по территории города распределены неравномерно (поэтому в некоторых штатах США полицейских посылали патрулировать не все улицы, а наиболее опасные с точки зрения происшествий). Не так давно появились исследования, которые выявляют места кластеризации определенных видов преступлений. Например, определенный тип преступлений чаще всего случается рядом с барами. Таким образом, у общества появляется возможность дифференцировать различные преступления и тем самым повышать эффективность работы правоохранительных органов. Кроме того, это способ организовать социальную политику и городское пространство, понять, как исключить формирование неблагополучных районов.

Группа исследователей из лаборатории решила узнать, как объявления, которые выкладываются в интернете, в том числе в социальных сетях, могут дать представление обо всем рынке. Несомненным плюсом для разработчиков оказалось то, что большая часть объявлений содержит не только описание того, кто предоставляет услуги, но еще и координаты. В этом смысле российские сайты, по словам исследователей, значительно отличаются от европейских или американских аналогов.

Исследования показали, что сегодня нелегальная сфера успешно адаптируется к техническим инновациям: появились приложения, у которых есть своя система лояльности, а самое главное – координаты. Несмотря на то, что адресные данные неточны, их достаточно для определения района, где происходит предоставление нелегальных услуг. Возможность проведения подобных исследований – большой шаг в изучении сетевой деятельности преступников. На сегодняшний день ситуация такова, что данные выкладываются в сеть собственноручно теми, кто предоставляет эти услуги, поэтому сбор и дальнейший анализ этих данных является достаточно удобным и несложным, по словам исследователей. Когда преступность выходит в мир Сети, ее деятельность уже не является такой сложной для контроля, как раньше.

Особую ценность для анализа представляют текстовые данные, которые варьируются в объеме – от небольшого информативного описания до длинного. Установить точную связь между тем, кто писал текст, и тем, кто предоставляет услуги, нельзя, однако по использованию языковых средств, конструкций, терминологии можно установить связь нескольких координат. Например, если точки находятся в разных частях города, но они схожи по языковому признаку, то можно сделать вывод, что это сеть.

Так можно узнать, насколько данный рынок является организованным: познать его структуру как пространственную, так и виртуальную. Одна из сфер девиантологии изучает способы определения профессионального статуса участников нелегального бизнеса. Один из критериев, по которым оценивается, на каком профессиональном этапе в карьере пребывает человек, – владение профессиональной лексикой. На основе анализа текстовых описаний исследователи могут понять, насколько участники погружены в сферу.

Другой источник данных – отзывы.  Изначально исследователи использовали данные с сайтов, где информация структурирована самими представителями услуг, однако есть и менее структурированные данные, но не менее ценные для анализа – данные из социальных сетей. Чем интересны ресурсы с отзывами и рекомендациями? Есть большой объем текста, готовые словари терминологии для новичков, с помощью анализа которых можно повысить точность прогноза (где и что находится). В некоторых случаях данные из социальных сетей более валидированные, чем с сайтов, поэтому их необходимо учитывать в работе, поясняют разработчики.