Хакатон Big Data Challenge

18 Квітня 2018

Якщо ви думаєте, що хакатон – цей захід на декілька годин/на днинку у форматі “похакатонили і розішлися по будинках”, ви помиляєтеся. Про те, як проходить хакатон “по хардкору” і без всяких “сюсі-пусі”, розповідає Data Analyst NIX Solutions Михайло :).

У кінці 2017 року компанія Vodafone Україна провела в Києві безпрецедентний за українськими мірками захід – хакатон Big Data Challenge, відкривши учасникам свої реальні телеком-дані.

Кого там тільки не було – в одно час і в одному місці зібралися:

•   організатори від Vodafone, які надали дані і інфраструктуру;

•   представники бізнесу, муніципальної влади, яка сформувала запити;

• аналітики, дата-сайнтисти і дата-інженери, які, власне, і були покликані для створення рішень;

•  інвестори, готові вкладати фінанси в реалізацію цих самих рішень.

Великі інтернет-компанії і телеком-оператори вже усвідомили, який величезний актив вони мають – даними про своїх клієнтів. Головна ідея хакатона була в пошуку рішень для різних завдань, які :

• грунтовані на даних про клієнтів;

• можуть зробити наш світ трохи краще.

З боку міської влади це були, наприклад, такі запити:

• як переміщається транспорт і в який час доби. Побудувати модель, яка дозволить зробити використання транспорту комфортнішим, скоротити час очікування;

• оптимізація роботи пограничних служб : які потоки людей спрямовуються до пунктів пропуску, в який час;

• децентралізація: як сильно місто виросло, куди треба пустити маршрути, які маршрути вже не використовуються;

•  туризм: як будувати туристичні маршрути;

• комунальні – як вибудовувати систему, нові квартали – розвиток інфраструктури.

Запити з боку бізнесу були наступні:

• розміщення магазинів, їх формат, асортимент, кількість квадратних метрів;

•  аналіз нерухомості – де саме будувати;

•  рекламні агентства: профіль клієнтів.

Від NIX Solutions в цьому заході взяли участь data analyst Михайло, data scientists Іван і Дмитро.

Всього у рамках хакатона було заплановане декілька етапів – для ефекту максимального занурення розповідаємо про кожного :).

Перший етап був ознайомлювальним і проводився у форматі Буткемпа : в конференц-залі зібралися близько 300 учасників з усіх куточків України, і ще як мінімум стільки ж брали участь в онлайн-трансляції.

Завданням Буткемпа було розібратися в структурі даних і зрозуміти, як саме їх можна застосувати з максимальною користю. Перед нами виступали менеджери Vodafone різного рівня і розбирали кейси успішного використання даних, а також знайомили з варіантами бізнес-запитів.

За підсумками цього етапу відразу ж було проведено тестування за математичною статистикою і data science, щоб подальше змагання проходило серед учасників з відповідним рівнем знань.

За результатами тесту наша команда пройшла в наступний етап, і ми відправилися додому готуватися до самого хакатону. Для цього нам передали тестовий семпл даних(250 Мб, 10 тисяч абонентів, 21 атрибут, 1 млн рядків).

Повернувшись в Харків і обдумавши усе почуте, ми підключили аналітиків усього нашого відділу і провели брейнсторм ідей для проекту на хакатоне :).

Другий етап – безпосередньо сам хакатон – проводився через 2 тижні. З відібраних на попередньому етапі учасників було сформовано більше ніж 30 команд, для яких провели презентацію кейсів і викликів(цього разу були представники реальних бізнесів – Укрпошта, ТБ-провайдер, ритейл компанія, мережа супермаркетів), і після цього рівно в 12: 00 субот був запущений таймер зворотнього відліку. Кожна команда могла вибрати собі технічних менторів(в основному це були представники Vodafone, вони підказували командам “Що зробити”?) і бізнес-тренерів(досвідчені стартапери і бізнесмени з експірієнсом роботи в різних галузях – медицині, будівництві, консалтингу, страхуванні і багатьох інших). З ними команди обговорювали ідеї своїх проектів, шукали цікаві застосування у бізнесі для своїх систем.

Тут семпл даних був вже більший: 2 Gb, 100 тисяч абонентів, 26 атрибутів, 10 млн рядків.

Нашу команду ми вирішили назвати Х-Team (що, як ви помітили, співзвучно з NIX :) ).

У 21:00 того ж дня проводився чекпойнт, на якому команди представляли членам журі ідеї своїх проектів. До цього часу у нас було вже 4 робітників ідеї, з яких нам хотілося займатися відразу двома. Наш бізнес-ментор підкинув ідею складання портрета відвідувачів open air заходів(концерти, фестивалі, мітинги) – це був план А, на який ми витратили усю суботу. Проте в запасі з домашнього брейнсторма у нас залишалася ще одна варта уваги ідея: виявлення прихованих і неявних ризиків при кредитуванні і страхуванні. Вислухавши все, ментори сказали, що найцікавішим вони рахують саме проект по виявленню ризиків :).

Попереду у нас була ціла ніч, щоб розвинути ідею, погуглить, сконструювати ознаки, навчити модель. До слова про організацію, для комфортного проведення нічного хакатона були створені усі умови – анлим кава і печеньки, інтернет і зручні пуфи-груші. Уранці ж нас чекав ще один чекпойнт, щоб розповісти менторам про наші успіхи. Потім у нас було 3 години на підготовку презентації і “підготовку себе” до доповіді. Що стосується виступів, вони були строго регламентовані – на спіч відводилося 3 хвилини.

За підсумками доповідей члени журі відібрали 12 команд, які вийшли у фінал. Наша команда була відмічена AWS нагородою, і в якості призу нам надали опцію роботи з Amazon- серверами у фіналі.

Третій етап почався відразу ж після хакатона – він припускав програму-акселератор з можливістю онлайн-спілкування з менторами і представниками бізнесу різних галузей.

Це був, мабуть, найцікавіший і неоднозначний етап. Він тривав півтора місяці, і за цей час ми провели переговори з різними кредитними і страховими організаціями, кредитними бюро.

Ми були у пошуках моделі співпраці, яка була б цікава і вигідна усім сторонам, тому що ми не можемо вирішити завдання без даних, дані неможливо отримати без договору, договір не підписують без демонстрації мінімально працюючих прототипів, які, у свою чергу, неможливі без отримання даних. Замкнутий круг :).

Впродовж третього етапу ми прийняли участь в реальних бізнес-переговорах, де кожне слово має бути зваженим. На фінальній фазі до нашої команди приєдналися ще аналітик Іра, менеджер Рената і дизайнери. Для нас був розгорнутий інстанс на AWS з максимальним семплом даних(21,5 GB, 30 атрибутів, 120 млн рядків), в якому ми змогли відразу будувати свої моделі.

Фінальний, четвертий етап – це пітчинг проектів перед інвесторами. Це були AVentures Capital, CYFRD, UAngel, Western NIS Enterprise Fund, Chernovetskyi Investment Group, а також топ-менеджмент Vodafone.

Вам напевно цікаво, що ж вийшло у нас, особливо в умовах такого тривалого, багатоетапного і насиченого заходу :). А ось що:

Суть нашого проекту – це сервіс, який по телеком-поведінці позичальника(дзвінки, їх тривалість, час доби, частота і суми поповнення, споживання трафіку і багато інших параметрів) може передбачати його кредитний рейтинг, навіть якщо він доки не має кредитної історії. Цей сервіс представляє інтерес для банків і фінансових установ.

За допомогою Machine Learning ми відстежуємо патерни телеком-поведінці позичальників і обчислюємо їх взаємозв’язок з його фінансовою поведінкою.

Переваги такого підходу полягають в тому, що :

  1. Ми можемо знати поведінку позичальника задовго до того, як він отримав свій перший кредит.
  2. Ми швидше реагуємо на зміну поведінки позичальника і можемо сигналізувати про це кредиторові.
  3. Ми можемо спрогнозувати кредитний рейтинг навіть для позичальників без історії.

Після закінчення доповідей самі учасники голосували за вподобаний проект, і більшості сподобалися проекти з соціальною спрямованістю, наприклад “Сервіс пошуку попутників зі схожими інтересами” або “Оптимізація нічних маршрутів громадського транспорту”.

Що стосується нашої команди, хакатон справив на нас позитивне враження і нагадав про можливість втілення ідей і розробки прототипу проекту всього за 2 діб шляхом плідної командної роботи. Для нас цей проект був корисний можливістю:

• швидко розібратися у сфері аналізу і обробки великих телекомунікаційних даних;
• отримати інформацію про різні можливості застосування телекомунікаційних даних;
•   розробити практичні моделі машинного навчання на їх основі.

Варто відмітити, що розроблені моделі можуть бути використані не лише у рамках сфери кредитування, але і для оцінки ризиків в інших сферах бізнесу. Ця риса нашого проекту була відмічена інвесторами і менторами, і потенційно відкриває шлях до подальшого розвитку і розширення сфери застосування побудованої моделі.

Для організаторів цей захід став джерелом ідей по використанню телеком-даних в різних проектах, для інвесторів же – демонстрацією можливостей сучасного Data Science з використанням Telecom Big Data, а також можливістю внести свій вклад в актуальні технологічні проекти.

Автор статті Data Analyst NIX Solutions Михайло