Хакатон Big Data Challenge

18 апреля 2018

Если вы думаете, что хакатон — это мероприятие на несколько часов/на денек в формате “похакатонили и разошлись по домам”, вы ошибаетесь. О том, как проходит хакатон “по хардкору” и без всяких “сюси-пуси”, рассказывает Data Analyst NIX Solutions Михаил :).

В конце 2017 года компания Vodafone Украина провела в Киеве беспрецедентное по украинским меркам мероприятие — хакатон Big Data Challenge, открыв участникам свои реальные телеком-данные.

Кого там только не было — в одно время и в одном месте собрались:

• организаторы от Vodafone, которые предоставили данные и инфраструктуру;

• представители бизнеса, муниципальных властей, которые сформировали запросы;

• аналитики, дата-сайнтисты и дата-инженеры, которые, собственно, и были призваны для создания решений;

• инвесторы, готовые вкладывать финансы в реализацию этих самых решений.

Большие интернет-компании и телеком-операторы уже осознали, каким огромным активом они обладают — данными о своих клиентах. Главная идея хакатона была в поиске решений для различных задач, которые:

• основаны на данных о клиентах;

• могут сделать наш мир немного лучше.

Со стороны городских властей это были, например, такие запросы:

• как перемещается транспорт и в какое время суток. Построить модель, которая позволит сделать использование транспорта более комфортным, сократить время ожидания;

• оптимизация работы пограничных служб: какие потоки людей направляются к пунктам пропуска, в какое время;

• децентрализация: как сильно город вырос, куда нужно пустить маршруты, какие маршруты уже не используются;

• туризм: как строить туристические маршруты;

• коммунальные – как выстраивать систему, новые кварталы – развитие инфраструктуры.

Запросы со стороны бизнеса были следующие:

• размещение магазинов, их формат, ассортимент, количество квадратных метров;

• анализ недвижимости – где именно строить;

• рекламные агентства: профиль клиентов.

От NIX Solutions в этом мероприятии приняли участие data analyst Михаил, data scientists Иван и Дмитрий.

Всего в рамках хакатона было запланировано несколько этапов — для эффекта максимального погружения рассказываем о каждом :).

Первый этап был ознакомительным и проводился в формате Буткемпа: в конференц-зале собрались около 300 участников со всех уголков Украины, и еще как минимум столько же участвовали в онлайн-трансляции.

Заданием Буткемпа было разобраться в структуре данных и понять, как именно их можно применить с максимальной пользой. Перед нами выступали менеджеры Vodafone различного уровня и разбирали кейсы успешного использования данных, а также знакомили с вариантами бизнес-запросов.

По итогам этого этапа сразу же было проведено тестирование по математической статистике и data science, чтобы дальнейшее соревнование проходило среди участников с подходящим уровнем знаний.

По результатам теста наша команда прошла в следующий этап, и мы отправились домой готовиться к самому хакатону. Для этого нам передали тестовый семпл данных (250 Мб, 10 тысяч абонентов, 21 атрибут, 1 млн строк).

Вернувшись в Харьков и обдумав все услышанное, мы подключили аналитиков всего нашего отдела и провели брейнсторм идей для проекта на хакатоне :).

Второй этап — непосредственно сам хакатон — проводился через 2 недели. Из отобранных на предыдущем этапе участников было сформировано более 30 команд, для которых провели презентацию кейсов и вызовов (на этот раз были представители реальных бизнесов — Укрпочта, ТВ-провайдер, ритейл компания, сеть супермаркетов), и после этого ровно в 12:00 субботы был запущен таймер обратного отсчета. Каждая команда могла выбрать себе технических менторов (в основном это были представители Vodafone, они подсказывали командам “Что сделать?”) и бизнес-тренеров (опытные стартаперы и бизнесмены с экспириенсом работы в различных отраслях — медицине, строительстве, консалтинге, страховании и многих других). С ними команды обсуждали идеи своих проектов, искали интересные применения в бизнесе для своих систем.

Тут семпл данных был уже больше: 2 Gb, 100 тысяч абонентов, 26 атрибутов, 10 млн строк.

Нашу команду мы решили назвать Х-Team (что, как вы заметили, созвучно с NIX :)).

В 21:00 того же дня проводился чекпойнт, на котором команды представляли членам жюри идеи своих проектов. К этому времени у нас было уже 4 рабочих идеи, из которых нам хотелось заниматься сразу двумя. Наш бизнес-ментор подкинул идею составления портрета посетителей open air мероприятий (концерты, фестивали, митинги) — это был план А, на который мы потратили всю субботу. Однако в запасе с домашнего брейнсторма у нас оставалась еще одна стоящая идея: выявление скрытых  и неявных рисков при кредитовании и страховании. Выслушав все, менторы сказали, что самым интересным они считают именно проект по выявлению рисков :).

Впереди у нас была целая ночь, чтобы развить идею, погуглить, сконструировать признаки, обучить модель. К слову об организации, для комфортного проведения ночного хакатона были созданы все условия — анлим кофе и печеньки, интернет и удобные пуфики-груши. Утром же нас ждал еще один чекпойнт, чтобы рассказать менторам о наших успехах. Затем у нас было 3 часа на подготовку презентации и “подготовку себя” к докладу. Что касается выступлений, они были строго регламентированы — на спич отводилось 3 минуты.

По итогам докладов члены жюри отобрали 12 команд, которые вышли в финал. Наша команда была отмечена AWS наградой, и в качестве приза нам предоставили опцию работы с Amazon-серверами в финале.

Третий этап начался сразу же после хакатона — он предполагал программу-акселератор с возможностью онлайн-общения с менторами и представителями бизнеса разных отраслей.

Это был, пожалуй, самый интересный и неоднозначный этап. Он длился полтора месяца, и за это время мы провели переговоры с различными кредитными и страховыми организациями, кредитными бюро.

Мы были в поисках модели сотрудничества, которое было бы интересно и выгодно всем сторонам, потому что мы не можем решить задачу без данных, данные невозможно получить без договора, договор не подписывают без демонстрации минимально работающих прототипов, которые, в свою очередь, невозможны без получения данных. Замкнутый круг :).

В течение третьего этапа мы поучаствовали в реальных бизнес-переговорах, где каждое слово должно быть взвешенным. На финальной фазе к нашей команде присоединились еще аналитик Ира, менеджер Рената и дизайнеры. Для нас был развернут инстанс на AWS с максимальным семплом данных (21,5 GB, 30 атрибутов, 120 млн строк), в котором мы смогли сразу строить свои модели.

Финальный, четвертый этап — это питчинг проектов перед инвесторами. Это были AVentures Capital, CYFRD, UAngel, Western NIS Enterprise Fund, Chernovetskyi Investment Group, а также топ-менеджмент Vodafone.

Вам наверняка интересно, что же получилось у нас, особенно в условиях такого продолжительного, многоэтапного и насыщенного мероприятия :). А вот что:

Суть нашего проекта — это сервис, который по телеком-поведению заемщика (звонки, их длительность, время суток, частота и суммы пополнения, потребление трафика и многие другие параметры) может предсказывать его кредитный рейтинг, даже если он пока не имеет кредитной истории. Этот сервис представляет интерес для банков и финансовых учреждений.

С помощью Machine Learning мы отслеживаем паттерны телеком-поведения заемщиков и вычисляем их взаимосвязь с его финансовым поведением.

Преимущества такого подхода заключаются в том, что:

  1. Мы можем знать поведение заемщика задолго до того, как он получил свой первый кредит.
  2. Мы быстрее реагируем на изменение поведения заемщика и можем сигнализировать об этом кредитору.
  3. Мы можем спрогнозировать кредитный рейтинг даже для заемщиков без истории.

По окончании докладов сами участники голосовали за понравившийся проект, и большинству понравились проекты с социальной направленностью, например “Сервис поиска попутчиков со схожими интересами” или “Оптимизация ночных маршрутов общественного транспорта”.

Что касается нашей команды, хакатон произвел на нас положительное впечатление и напомнил о возможности воплощения идей и разработки прототипа проекта всего за 2 суток путем плодотворной командной работы. Для нас этот проект был полезен возможностью:

• быстро разобраться в сфере анализа и обработки больших телекоммуникационных данных;
• получить информацию о различных возможностях применения телекоммуникационных данных;
• разработать практические модели машинного обучения на их основе.

Стоит отметить, что разработанные модели могут быть использованы не только в рамках сферы кредитования, но и для оценки рисков в других сферах бизнеса. Эта черта нашего проекта была отмечена инвесторами и менторами, и потенциально открывает путь к дальнейшему развитию и расширению сферы применения построенной модели.

Для организаторов это мероприятие стало источником идей по использованию телеком-данных в различных проектах, для инвесторов же — демонстрацией возможностей современного Data Science с использованием Telecom Big Data, а также возможностью внести свой вклад в актуальные технологические проекты.

Автор статьи Data Analyst NIX Solutions Михаил