NIX на Spark + AI Summit 2019

18 ноября 2019

Attention! Среди участников Spark + AI Summit 2019 были замечены цвета NIX. Согласно данным разведслужб, ребята из отделов Java и Python успешно посетили Амстердам, приняли участие в трехдневной конференции и уже вернулись в Харьков, прихватив с собой терабайт полезной информации, новых знаний, интересных идей, а также неограниченное количество профессионального воодушевления. Вообще наши информаторы много чего нам рассказали. Но мы не жадные, да и в разведку с нами лучше не ходить, потому что все, что мы узнали от них, мы готовы рассказать и вам :).

Spark + AI Summit 2019 — крупнейшая в Европе конференция по данным и машинному обучению. Ежегодно более 2000 ученых, инженеров и аналитиков данных приезжают на ивент, чтобы узнать о последних достижениях в технологиях с открытым исходным кодом, таких как Apache Spark, TensorFlow, MLflow, а также о лучших практиках развертывания ИИ в реальном мире. А в этом году участникам повезло узнать о новейших технологиях OSS, включая Delta Lake и Koalas.

Spark + AI Summit 2019 в Амстердаме собрал более 2300 специалистов в области Data/ML Engineering и  Data Science из более чем 60 стран. Это крупнейшая конференция, посвященная мощному инструменту обработки данных Apache Spark и другим ML технологиям. Ее организовывает компания Databricks, основателями которой стали создатели Spark. Сегодня она является его основным контрибьютором.

Конференция длилась три дня. Она проходила в конференц-центре RAI Amsterdam. Это был невероятно просторный и очень удобно спланированный комплекс. 

В первый день у нас был 7-часовой тренинг “Apache Spark Tuning and Best Practices”. Он был предназначен для разработчиков и дата инженеров, интересующихся темой оптимизации Spark приложений. Это были очень познавательные 7 часов для меня как Spark-разработчика. Следующие два дня были посвящены докладам от спикеров из Databricks, Microsoft, Google, Facebook, IBM, CERN, Intel, AWS, Airbnb и других известных компаний. 

Ребята из Databricks поделились новыми разработками, которые будут включены в предстоящий релиз Spark 3.0, а также улучшениями, ожидаемыми от других продуктов компании Delta Lake, MLflow и Koalas.

Если говорить о докладах, то одним из самых ярких стал “Deep Learning Pipelines for High Energy Physics using Apache Spark with Distributed Keras” от Luca Canali. Спикер рассказал, как в CERN реализовали пайплайн данных на основе Apache Spark для исследований в области физики высоких энергий. На минутку, объем данных, проходящих через их систему, составляет 1 петабайт в секунду! 

Нельзя не отметить и доклад “Apache Spark Core — Practical Optimization” от Daniel Tomes из Databricks, который не уступал по полезности первой теме. Это выступление, занявшее по времени две сессии, можно назвать набором практик и рекомендаций по обеспечению мощной оптимизации Spark приложения и запросов.

И конечно нельзя забывать, что конференция проходила в Амстердаме. Это удивительный, разный и открытый город. Чтобы его увидеть, достаточно просто купить проездной билет (96 часов за 24,5 евро), сесть в любой трамвай, затем выйти на понравившейся остановке и просто пойти гулять. Это город парков, каналов и красивой архитектуры, а его жители предпочитают велосипед автомобилю. 

Кстати, местная бабушка легко вас может подрезать на велосипеде, так что будьте внимательны :). Амстердам впечатляет, у него есть своя атмосфера и свой стиль. И если вы еще не были здесь, то посетите обязательно. А если совместно с конференцией, тогда посетите дважды :).

Руслан, Python Developer

Объединяя темы Spark + AI, конференция является уникальным «универсальным магазином» для разработчиков, специалистов по данным и технических руководителей, которые стремятся применять лучшие инструменты для обработки данных и ИИ для создания инновационных продуктов. 

Конкретных вопросов перед конференцией я не готовил, но думал о том, что можно будет спросить или уточнить у лекторов, если будет такая возможность. Готовился скорее к тому, чтобы получить новые знания, которые можно будет применить к нашему проекту, найти что-то, что позволит его улучшить. И очень круто, что всё это получилось :).

Думаю, об этом скажут все участники, но особо полезным стал тренинг. Здесь было много того, что уже сейчас можно брать и применять в нашем проекте и моей повседневной практике. Пока еще на практике этого я не пробовал, но план внедрения новых инструментов уже составил.

Порадовало, что на тренинге и на лекциях рассказывали не поверхностно, а затрагивали техническую часть работы системы, как и каким образом можно применять ту или иную технологию, совершенствовать её.

Мы старались посещать лекции, которые были посвящены настройке и тюнингу спарк кластеров, а не самой разработке приложений для спарка, так как мы больше работаем именно с ними. Были интересные темы про тюнинг спарк кластеров и  настройке кластеров на Kubernetes операторы, который мне понравился больше всего. 

Грубо говоря, нам рассказали, что мы можем всего одной командой запустить целый Спарк кластер, и это прям вау.  Для продакшена это может не подойти, а вот для девелопмента и локального использования (если правильно настроить) это будет очень круто. Плюс мы узнали, какие проперти при настройке кластера самые важные, а какие нужно менять 100 %. Например, у нас стоят дефолтные значения, а это совсем неправильно: изменив их, мы можем конкретно увеличить перфоманс приложений. Об этом я еще обязательно расскажу ребятам в отделе.

Данил, Java Developer

Сессии и тренинги на конференции были посвящены информационным технологиям и содержанию данных, а также лучшим практикам по созданию ИИ: поддержанию актуальности данных обучения с помощью потоковой обработки, мониторингу качества, тестированию и обслуживанию моделей в широком масштабе. Конференция также включала в себя углубленные сессии по популярным программным системам.

Мысли о посещении этой конференции были у нас уже давно, и вот в этом году мы наконец осуществили свою мечту :). Лично у меня эмоции менялись постоянно. 

Первый из трех дней конференции был посвящен тренингу по оптимизации. Эта тема была нам очень близка, потому что именно оптимизация — головная боль нашего проекта. Мы знали синтаксис, было понимание, как код должен выполняться, но не знали, как именно фреймворк это делает. Поэтому ставки на тренинг были очень высокими, и они себя полностью оправдали. Было круто послушать от самых крупных контрибьюторов Spark, как они оптимизируют код, как заставить технологию выполнять то, что нам нужно, а не то, что система считает правильным, показывали лайфхаки, как обмануть систему, подсказали, как можно что-то залогировать, чтобы потом увидеть всё на UI. Мы узнали много полезного, привезли крутой материал, который ещё на самом деле копать и копать :). 

Второй день начался уже с самой конференции. Он даже показался немного слабым, потому что большинство тем были начального уровня, который мы давно уже прошли. А вот третий день оказался интереснее и продуктивнее. Нам рассказывали как раз то, с чем мы сейчас работаем. Многое из услышанного оказалось полезным для проекта, поэтому рассказать ребятам в отделе будет что.

Если говорить о прелести конференции, то она в следующем. Мы сами учились этой технологии по книгам, учились правильно писать код, но у многих до сих пор остались открытые вопросы и неполное понимание того, как же оно работает изнутри, и правильно ли мы поступаем, выбирая тот или иной подход. Spark + AI Summit 2019 позволила закрыть большинство из них. Плюс ко всему я уже сейчас решаю одну из задач проекта благодаря тем кейсам, которые затрагивались на конференции. 

Илья , Python Developer

Меня очень поразил масштаб конференции и то, сколько всего полезного и важного мы здесь услышали. Невозможно не упомянуть о тренинге, от которого я ожидала очень многого. Здесь нас не учили программировать, а рассказывали о том, как можно усовершенствовать те процессы, с которыми мы работаем сегодня. 

Сессии следующих двух дней тоже не оставили меня равнодушной. Еще во время докладов у меня рождались идеи, как можно использовать то, о чем говорят со сцены, как улучшить то, что мы сейчас пишем. Возникало легкое зудящее чувство, потому что хотелось сразу же попробовать это все на практике, посмотреть, как кейсы будут работать в наших проектах. Для себя я сразу составила список того, что нужно попробовать в первую очередь :).

Вообще конференция была рассчитана на разные уровни знаний: от новичков, которые совершенно ничего не знают, до уже более опытных программистов, у которых есть сложные технические вопросы о том, как система работает изнутри.

Новичкам рассказывали материал, который встречается в книгах, а вот для разработчиков с большим опытом лекции были намного интереснее. Мы узнали о том, как внедрялись определенные технологии в реальных проектах, к какому результату они могут привести и как повысить эффективность от их применения. 

Конференция дала нам много ответов и способов решения актуальных вопросов, поэтому впереди нас ждет плодотворная работа по совершенствованию текущих проектов :).

Ирина, Java Developer

Любая конференция — это, прежде всего, бесценный опыт и отличный стимул продолжать развиваться в выбранном направлении. Поэтому вместе с новыми знаниями и визитными карточками иностранных коллег наши ребята привозят в NIX огромный заряд энергии и стремление совершенствовать текущие проекты и еще круче “пилить” новые. Поэтому до встречи на новых конференциях в Риме, Барселоне, Сан-Хосе, да и где угодно :).