NIX на Spark + AI Summit 2019

18 Листопада 2019

Attention! Серед учасників Spark+AI Summit 2019 були помічені кольори NIX. За даними розвідслужб, хлопці з відділів Java та Python успішно відвідали Амстердам, взяли участь у триденній конференції та вже повернулися до Харкова, прихопивши з собою терабайт корисної інформації, нових знань, цікавих ідей, а також необмежену кількість професійної наснаги. Загалом наші інформатори багато чого нам розповіли. Але ми не жадібні, та й у розвідку з нами краще не ходити, бо все, що ми дізналися від них, ми готові розповісти вам :).

Spark + AI Summit 2019 – найбільша в Європі конференція за даними та машинним навчанням. Щорічно більше 2000 вчених, інженерів та аналітиків даних приїжджають на івент, щоб дізнатися про останні досягнення у технологіях з відкритим вихідним кодом, таких як Apache Spark, TensorFlow, MLflow, а також про найкращі практики розгортання ІІ у реальному світі. А цього року учасникам пощастило дізнатися про новітні технології OSS, включаючи Delta Lake і Koalas.

Spark + AI Summit 2019 в Амстердамі зібрав понад 2300 фахівців у галузі Data/ML Engineering та Data Science з більш ніж 60 країн. Це найбільша конференція, присвячена потужному інструменту обробки даних Apache Spark та іншим технологіям ML. Її організовує компанія Databricks, основоположниками якої стали творці Spark. Сьогодні вона є його основним контриб’ютором.

Конференція тривала три дні. Вона проходила у конференц-центрі RAI Amsterdam. Це був неймовірно просторий та дуже зручно спланований комплекс.

Першого дня ми мали 7-годинний тренінг “Apache Spark Tuning and Best Practices”. Він був призначений для розробників та дата інженерів, які цікавляться темою оптимізації Spark додатків. Це були дуже пізнавальні 7 годин для мене як Spark-розробника. Наступні два дні були присвячені доповідям від спікерів Databricks, Microsoft, Google, Facebook, IBM, CERN, Intel, AWS, Airbnb та інших відомих компаній.

Діти з Databricks поділилися новими розробками, які будуть включені в майбутній реліз Spark 3.0, а також покращення, очікувані від інших продуктів компанії Delta Lake, MLflow і Koalas.

Якщо говорити про доповіді, то одним із найяскравіших став “Deep Learning Pipelines for High Energy Physics using Apache Spark with Distributed Keras” від Luca Canali. Спікер розповів, як у CERN реалізували пайплайн даних на основі Apache Spark для досліджень у галузі фізики високих енергій. На хвилину обсяг даних, що проходять через їх систему, становить 1 петабайт в секунду!

Не можна не відзначити і доповідь “Apache Spark Core – Practical Optimization” від Daniel Tomes з Databricks, яка не поступалася за корисністю першій темі. Цей виступ, що зайняв за часом дві сесії, можна назвати набором практик та рекомендацій щодо забезпечення потужної оптимізації Spark програми та запитів.

І, звичайно, не можна забувати, що конференція проходила в Амстердамі. Це дивовижне, різне та відкрите місто. Щоб його побачити, досить просто купити проїзний квиток (96 годин за 24,5 євро), сісти в будь-який трамвай, потім вийти на зупинці, що сподобалася, і просто піти гуляти. Це місто парків, каналів та гарної архітектури, а його мешканці віддають перевагу велосипеду автомобілю.

До речі, місцева бабуся легко вас може підрізати на велосипеді, тому будьте уважні :). Амстердам вражає, у нього є своя атмосфера та свій стиль. І якщо ви ще не були тут, відвідайте обов’язково. А якщо разом із конференцією, тоді відвідайте двічі :).

Руслан, Python Developer

Поєднуючи теми Spark + AI, конференція є унікальним «універсальним магазином» для розробників, фахівців за даними та технічних керівників, які прагнуть застосовувати найкращі інструменти для обробки даних та ІІ для створення інноваційних продуктів.

Конкретних питань перед конференцією я не готував, але думав про те, що можна буде запитати чи уточнити у лекторів, якщо буде така можливість. Готувався швидше до того, щоб отримати нові знання, які можна буде застосувати до нашого проекту, знайти щось, що дозволить його покращити. І дуже круто, що це все вийшло :).

Думаю, про це скажуть усі учасники, але особливо корисним став тренінг. Тут було багато того, що вже зараз можна брати та застосовувати у нашому проекті та моїй повсякденній практиці. Поки що на практиці цього я не пробував, але план впровадження нових інструментів уже становив.

Порадувало, що на тренінгу та на лекціях розповідали не поверхово, а торкалися технічної частини роботи системи, як і яким чином можна застосовувати ту чи іншу технологію, удосконалювати її.

Ми намагалися відвідувати лекції, які були присвячені налаштуванню та тюнінгу спарк кластерів, а не самій розробці додатків для спарку, тому що ми більше працюємо саме з ними. Були цікаві теми про тюнінг спарк кластерів і налаштування кластерів на Kubernetes оператори, який мені сподобався найбільше.

Грубо кажучи, нам розповіли, що ми можемо лише однією командою запустити цілий Спарк кластер, і це прямо вау. Для продакшена це може не підійти, а ось для девелопменту та локального використання (якщо правильно налаштувати) це буде дуже круто. Плюс ми дізналися, які проперти при налаштуванні кластера найважливіші, а які потрібно міняти 100%. Наприклад, у нас стоять дефолтні значення, а це зовсім неправильно: змінивши їх, ми можемо збільшити перфоманс додатків. Про це я ще обов’язково розповім хлопцям у відділі.

Данило, Java Developer

Сесії та тренінги на конференції були присвячені інформаційним технологіям та змісту даних, а також кращим практикам зі створення ІІ: підтримання актуальності даних навчання за допомогою потокової обробки, моніторингу якості, тестування та обслуговування моделей у широкому масштабі. Конференція також включала поглиблені сесії з популярних програмних систем.

Думки про відвідування цієї конференції були у нас вже давно, і ось цього року ми нарешті здійснили свою мрію:). Особисто у мене емоції змінювалися постійно.

Перший із трьох днів конференції був присвячений тренінгу з оптимізації. Ця тема була дуже близька, бо саме оптимізація — головний біль нашого проекту. Ми знали синтаксис, було розуміння, як код повинен виконуватись, але не знали, як саме фреймворк це робить. Тому ставки на тренінг були дуже високими, і вони повністю виправдали себе. Було круто послухати від найбільших контриб’ютерів Spark, як вони оптимізують код, як змусити технологію виконувати те, що нам потрібно, а не те, що система вважає за правильне, показували лайфхаки, як обдурити систему, підказали, як можна щось залогувати, щоб потім побачити все на UI. Ми дізналися багато корисного, привезли крутий матеріал, який ще насправді копати та копати :).

Другий день розпочався вже із самої конференції. Він навіть здався трохи слабким, тому що більшість тем були початкового рівня, який ми давно вже пройшли. А ось третій день виявився цікавішим і продуктивнішим. Нам розповідали саме те, з чим ми зараз працюємо. Багато чого з почутого виявилося корисним для проекту, тож розповісти хлопцям у відділі буде що.

Якщо говорити про принадність конференції, то вона ось у чому. Ми самі вчилися цієї технології за книгами, вчилися правильно писати код, але у багатьох досі залишилися відкриті питання та неповне розуміння того, як воно працює зсередини, і чи правильно ми робимо, вибираючи той чи інший підхід. Spark + AI Summit 2019 дозволила закрити більшість із них. Плюс до всього я вже зараз вирішую одне із завдань проекту завдяки тим кейсам, які торкалися конференції.

Ілля , Python Developer

Мене дуже вразив масштаб конференції і те, скільки всього корисного та важливого ми тут почули. Неможливо не згадати про тренінг, від якого я очікувала дуже багато чого. Тут нас не вчили програмувати, а розповідали про те, як можна вдосконалити процеси, з якими ми працюємо сьогодні.

Сесії наступних двох днів теж не залишили мене байдужою. Ще під час доповідей у ​​мене народжувалися ідеї, як можна використати те, про що говорять зі сцени, як покращити те, що ми зараз пишемо. Виникало легке свербляче почуття, тому що хотілося відразу спробувати це все на практиці, подивитися, як кейси працюватимуть у наших проектах. Для себе я одразу склала список того, що потрібно спробувати насамперед :).

Взагалі конференція була розрахована на різні рівні знань: від новачків, які абсолютно нічого не знають, до вже досвідченіших програмістів, які мають складні технічні питання про те, як система працює зсередини.

Новачкам розповідали матеріал, який зустрічається у книгах, а ось для розробників із великим досвідом лекції були набагато цікавішими. Ми дізналися про те, як впроваджувалися певні технології в реальних проектах, до якого результату вони можуть призвести і як підвищити ефективність їх застосування.

Конференція дала нам багато відповідей та способів вирішення актуальних питань, тому попереду на нас чекає плідна робота щодо вдосконалення поточних проектів :).

Ірина, Java Developer

Будь-яка конференція — це, насамперед, безцінний досвід та відмінний стимул продовжувати розвиватися у вибраному напрямку. Тому разом із новими знаннями та візитними картками іноземних колег наші хлопці привозять у NIX величезний заряд енергії та прагнення вдосконалювати поточні проекти та ще крутіше “пиляти” нові. Тому до зустрічі на нових конференціях у Римі, Барселоні, Сан-Хосе та й де завгодно :).