Доклады (программа в стадии формирования)
Работа со звуком (2)
LLM говорит: мультимодальные задачи в речевом домене
Доклад о возможностях LLM-архитектур в аудиодомене: понимание аудио, распознавание, генерация речи, клонирование голоса, инструктивная генерация голоса. Рассмотрим как узкоспециализированные, так и мультизадачные архитектуры. А также SFT предобученной текстовой LLM на аудиоданных.
Доклад принят в программу конференции
Как «Писец» на «Тотальный диктант» ходил, или Пара слов о робастном распознавании речи
В 2024 году состоялся юбилейный, вот уже десятый по счёту «Тотальный диктант». Но «Писец» на него пришёл в первый раз. Вы не подумайте, ничего плохого не произошло! Просто «Писец» — это открытая система автоматической расшифровки различных звукозаписей, от журналистского интервью до заседания диссертационного совета. Эта система, будто древнерусский писец за боярином, записывает всё, что говорите вы и ваши собеседники, и сохраняет в виде структурированного текста с таймингами.
В своём докладе я расскажу о том, с какими трудностями нам пришлось столкнуться при создании нашего «Писца», как мы используем Wav2Vec2 и Whisper в пайплайне распознавания и зачем нам надо было файнтюнить Whisper (он же хорош из коробки, разве нет?). Кроме того, интересным является не только вопрос, зачем файнтюнить Whisper, но и как его файнтюнить так, чтобы получилось действительно хорошо. Поэтому в ходе доклада я также коснусь необходимости робастного обучения, парадигмы минимизации инвариантного риска и понятия среды (environment) в распознавании речи.
Доклад принят в программу конференции
Компьютерное зрение и генерация изображений (11)
Жестовый язык: особенности сбора данных, опыт и результаты
* Характеристики и особенности датасетов для распознавания жестовых языков.
* Сложности и ошибки при сборе датасета РЖЯ.
* Полный цикл сбора данных для распознавания РЖЯ.
Доклад принят в программу конференции
Виртуальная примерка одежды для кабинета мерчанта
Искусственный интеллект дошел и до такой области, как виртуальная примерка одежды, косметики, строительных материалов и т.д. За последний год появился целый ряд научных статей, решающих задачу примерки одежды с помощью различных диффузионных моделей. Компания ecom.tech выбрала это направление в качестве одного из перспективных проектов, способных помочь как мерчантам, так и пользователям на нашей платформе Мегамаркета.
В докладе мы подробно расскажем о том, как мы пришли к текущему решению, состоящему из следующих шагов:
* анализ open source-решений;
* выбор наилучшего с учетом различных ограничений;
* доработка алгоритмов для применения модели на различных позах человека и сложных категориях одежды;
* дообучение модели под важные для бизнеса типы одежды;
* расширение пайплайна моделей с целью создания удобного интерфейса для пользователя.
Доклад принят в программу конференции
Мастер-класс «Получение высококачественных данных для обучения ИИ-моделей»
На мастер-классе мы покажем, как получить качественные данные для обучения моделей машинного обучения.
Мы создадим проект по разметке данных с помощью краудсорсинга, организуем контроль качества для получения высококачественных данных, сравним разметку с использованием краудсорсинга и больших языковых моделей (LLM), а также обучим собственную модель.
Доклад принят в программу конференции
Генерация видео: from zero to hero
Последние несколько лет можно назвать расцветом генеративных моделей, работающих в самых разных модальностях. Доклад будет посвящён одной из самых трудоёмких и сложных задач этого направления — синтезу полноценных видео по тексту на естественном языке (text-to-video), а также подходам к решению этой задачи на основе диффузии и flow matching.
Обсудим теоретические аспекты диффузионного и flow matching-процессов, их преимущества и недостатки. Разберёмся с задачей генерации видео по текстовому описанию. Поговорим о новой архитектуре Kandinsky 4.0, особенностях её обучения, нюансах сбора, фильтрации, хранения данных для обучения и полученных результатах. Затронем основные трудности обучения и сложности оценивания качества генеративных text-to-video-моделей.
В заключение обсудим применение text-to-video-моделей и их потенциал в будущем (для создания рекламы, мини-фильмов, генерации синтетических данных для Robotics и Self-Driving Cars).
Доклад принят в программу конференции
Синтетика для поиска редких дефектов — от фотошопа до диффузионок
В ходе работы над задачами поиска дефектов на конвейерах мы столкнулись с проблемой, что наиболее критичные дефекты встречаются очень редко, некоторые — раз в год или реже, но приводят к значительным последствиям. Мы достаточно давно экспериментируем с различными подходами по генерации синтетики, пробовали разные методы от фотошопа до диффузионок и хотим показать наш путь, рассказать что нового мы привнесли в этот процесс, как в итоге строится пайплайн, как он может негативно повлиять на обучение и как можно дополнительно проверить качество разметки не только на глаз, но и моделями, чтобы снизить переобучение.
Мы расскажем:
* почему редкие объекты такие важные;
* почему не работают традиционные методы увеличения выборки;
* как эволюционировали подходы к синтезу в проектах Северстали и что получается красивее;
* как проверить качество синтезированных данных не «на глаз»;
* побочные эффекты синтетики;
* как встроить синтетику в свои процессы и не потратить ценные реальные данные.
Доклад принят в программу конференции
Увеличиваем число обнаружений в задачах Object Detection и Instance Segmentation
Patch-Based-Inference является усовершенствованным SAHI-подходом для обнаружения большого количества маленьких объектов на изображениях с поддержкой задач инстанс-сегментации, улучшенной технологией подавления дубликатов и удобной библиотекой с широкой кастомизацией.
Разработанная Python-библиотека поддерживает следующие модели по Object Detection и Instance Segmentation: YOLOv8, YOLOv8-seg, YOLOv9, YOLOv9-seg, YOLOv10, FastSAM и RTDETR.
В рамках доклада будет рассказано, как работает данная технология, какие актуальные задачи может помочь решить. Вы узнаете, как можно в разы увеличить число обнаруживаемых объектов без дополнительного обучения нейронных сетей.
Ссылка на open source-проект — github.com/Koldim2001/YOLO-Patch-Based-Inference
Доклад принят в программу конференции
3D pose estimation объектов фиксированной геометрии для складских роботов
Расскажем о том, как мы настроили 3D-локализацию коробок с товарами для складской робототехники, с какими особенностями и проблемами столкнулись, а также покажем, как мы поддерживаем текущее решение в среде активно меняющихся доменов. Поговорим об keypoints estimation, instance segmentation и active learning.
Доклад принят в программу конференции
Мягкая модерация изображений: скрыть нельзя блокировать
Самый простой способ модерации контента — отклонение и ручная проверка, однако при больших нагрузках даже проверка прогнозов точных классификаторов составляет проблему. Мы оптимизировали нагрузку на ручную модерацию: автоматически скрываем нарушения и отправляем на проверку только сложные случаи.
В докладе расскажем, как прошли путь от сбора данных до успешного запуска системы, выдерживающей высокую нагрузку, и снизили необходимость ручных проверок изображений с контактами в 10 раз.
Доклад принят в программу конференции
Вместо зеленого экрана: гармонизация портрета с помощью нейросети
Хотите сделать селфи под пальмой на Мальдивах, не выходя из дома? Это возможно благодаря технологиям замены фона. А чтобы результат получился наиболее реалистичным, применяется гармонизация изображения.
В докладе мы расскажем про задачу гармонизации портретов с помощью нейросетей, рассмотрим, какие сейчас существуют датасеты и решения (спойлер: их очень мало) и поговорим про нашу State-of-the-Art-модель гармонизации PHNet, в основе которой лежит идея нормализации по патчам.
Также мы расскажем, как быстро и бесплатно собрать свой датасет гармонизации портретов с 70 000 высококачественных изображений. Код, веса предобученых моделей и датасет мы выложили в открытый доступ!
Доклад принят в программу конференции
Диффузионные модели для мобильных телефонов
Большие диффузионные модели продемонстрировали отличные возможности для генерации фотореалистичных изображений. Диффузионные модели, использующие текстовый запрос для условной генерации, позволяют пользователю получить разнообразные изображения из описания на естественном языке. Однако для решения конкретной бизнес-задачи очень большое разнообразие может не требоваться. Диффузионные модели имеют обычно порядка 1 миллиарда параметров и требуют значительных вычислительных ресурсов. Уменьшение покрытия диффузионной моделью различных объектов, тем и стилей к выбранному домену, позволит уменьшить размер модели и сократить вычислительные ресурсы и время для генерации.
Уменьшение и упрощение архитектуры диффузионной модели также облегчает её развёртывание на мобильных устройствах, что даёт следующие преимущества: отсутствие дорогостоящих серверов, улучшение приватности пользователей и возможность работать в офлайн-режиме.
В данной работе мы провели исследование с диффузионными моделями относительно небольшого размера и упрощенной архитектуры в выбранной доменной области — портретные изображения — и показали, что они могут соперничать с большими диффузионными моделями. Мы интегрировали нашу диффузионную модель в приложение для смартфонов, и продемонстрировали её практическое применение для редактирования фотографий, генерации аватаров и ассетов для дополненной реальности.
Доклад принят в программу конференции
Побеждают ли диффузионные модели генеративные состязательные сети в задаче повышения разрешения?
В современной литературе преобладает мнение, что диффузионные модели работают однозначно лучше, чем генеративные состязательные сети (GAN'ы) в задаче повышения разрешения (Image Super Resolution). Однако в большинстве сравнений диффузионные модели на порядок превосходят подходы, основанные на GAN'ах, по размеру и величине затраченных ресурсов. Отсюда возникает предположение, что превосходство диффузионных моделей может быть обусловлено большим масштабом моделей и данных, а не превосходством самой парадигмы.
В нашей работе мы впервые проводим контролируемое исследование, в котором диффузионные модели и GAN'ы выровнены по размеру моделей и объёму затраченных на их обучение вычислительных ресурсов, и показываем, что GAN'ы достигают результатов не хуже, чем диффузионные модели. Кроме того, мы исследуем влияние различных факторов, таких как обусловливание на текст и аугментация изображений, на качество работы моделей повышения разрешения.
Доклад принят в программу конференции
Обработка естественного языка (7)
Визуальные языковые модели: от разбора архитектуры до запуска
* Зачем нам нужны мультимодальные, а, в частности, визуальные языковые модели.
* Как собрать хорошие данные для визуальной языковой модели.
* Как выглядит типичная архитектура мультимодальных моделей, и на какой архитектуре мы остановились.
* Какие секреты и фишки удалось узнать во время работы.
Доклад принят в программу конференции
За рамками сценария: непрерывное тестирование для адаптивных и безопасных LLM систем
Системы, основанные на LLM, предоставляют огромные возможности для бизнеса, начиная от создания виртуальных ассистентов и заканчивая автоматизацией сложных рабочих процессов. Однако их непредсказуемость и чувствительность к изменениям вызывают опасения по поводу безопасности и стабильности работы в production. Несмотря на то что тщательное тестирование перед развертыванием крайне важно, оно не способно выявить все проблемы.
Существует несколько стратегий, которые могут повысить безопасность и надежность LLM. Один из подходов заключается в добавлении safeguards механизмов в систему ответов LLM. Другой подход — это непрерывное тестирование и мониторинг для выявления и устранения проблем по мере их возникновения.
Этот доклад мы рассматрим взаимодополняющие роли мониторинга и непрерывного тестирования:
• Мониторинг: мы рассмотрим, как отслеживание количественных показателей, таких как сентимент, токсичность, cемнатическая близость запроса и ответа, длина и ключевые слова во входах и выходах модели, может предоставить динамический обзор работы системы и помочь в обнаружении текущих проблем.
• Непрерывное тестирование: мы обсудим, как дополнить мониторинг тестированием поведения модели в сложных сценариях, например тестирование на соблюдение конкретных политик компании.
Мы посмотрим на практические примеры и стратегии реализации тестирования с использованием инструментов с открытым исходным кодом. Этот доклад будет полезен всем, кто работает с LLM, включая разработчиков, дата саентистов и менеджеров продуктов, стремящихся ответственно и эффективно использовать LLM системы.
Доклад принят в программу конференции
Как мы делаем прагматичный поиск и Q&A без LLM
В докладе расскажу:
* про удобную поисковую строку, которую мы сделали для сервиса HelpDesk в Билайн;
* про сильный baseline поиска на BM25, в каких случаях он работает хорошо, а где без применения нейронки не обойтись;
* как мы завели Q&A на бертах в продакшне поверх базы знаний билайн;
* как с помощью LLM размечали датасет для файнтюна модели под домен HelpDesk.
Доклад принят в программу конференции
Эволюция Transformer: как меняется самая успешная архитектура в DL
Transformer — одна из наиболее успешных архитектур, совершившая революцию в области обработки естественного языка, — не стоит на месте и активно развивается. Помимо адаптации к новым модальностям, ученые и инженеры придумывают подходы для улучшения качества и эффективности обучения и использования сетей на основе Transformer. Это могут быть новые функции активации, иные нормализации или даже замена привычного механизма внимания. Доклад посвящён хронологическому обзору развития Transformer и тому, как те или иные успешные решения позволили прийти от оригинальной версии к текущему состоянию, и какие разработки могут стать основой для будущих нейросетевых архитектур.
Доклад принят в программу конференции
Обзор уязвимостей и техник защиты для LLM
В докладе Евгений расскажет, какие типы атак направлены на LLM и приоритизирует самые важные с прикладной точки зрения. Каждый месяц публикуется около сотни статей в области безопасности LLM, поэтому мы акцентируем внимание на самых значимых работах. Обсудим современные фреймворки классификации, включая OWASP, Mitre и Databricks, и как они могут быть применены для защиты решений на базе LLM.
Кроме того, Евгений сравнит защиту и alignment Open Source и проприетарных моделей. После доклада слушатели смогут использовать чек-лист для проверки ИИ-приложений перед выводом в продакшн, что позволит повышать уровень защиты своих систем.
Доклад принят в программу конференции
Генеративные модели для работы с кодом. Как мы из 0 сделали 1
Расскажем про применение современных инструментов на основе LLM для задач разработчиков:
* какие существуют подходы к обучению LLM-моделей для применения в сфере Software Development;
* поговорим про офлайн- и онлайн-метрики, оценки качества и устройство runtime.
Доклад принят в программу конференции
От промпта к агентной системе: как превратить LLM в высококачественный сервис
LLM все чаще используются в качестве сервиса. Мы привыкли к высокому качеству проприетарных моделей от OpenAI и Anthropic, но открытые модели часто не достигают такого уровня «из коробки». В таких случаях специалисты по NLP вынуждены применять различные методы для достижения необходимого качества генерации.
В этом докладе я поделюсь нашим опытом и последними достижениями в этой области. Покажу, в каких проектах лучше использовать цепочки из промптов, а когда — агентные системы.
Мы рассмотрим, как разделение задач на подзадачи, контекстуализация запросов и механизмы обратной связи помогают создать гибкие и качественные сервисы на основе LLM.
Доклад принят в программу конференции
Рекомендательные системы и поиск (10)
WildBERT — развитие трансформерных архитектур для персонализации Wildberries
Трансформеры — мощный инструмент работы с последовательностями, который тем не менее требует хорошей «огранки» и «подгонки» под специфику.
Расскажу про то, как шаг за шагом нативный BERT4Rec превратился в WildBERT — инструмент, который играет одну и самых важных ролей в персонализации Wildberries. На Главной, в карточке товара, поиске и каталоге.
Про что поговорим:
* Large vocabulary bottleneck, negative sampling и logQ correction;
* выкатка в прод и бизнесовые требования, дихотомия офлайн- и онлайн-метрик;
* подход к маскированию при обучении, next basket prediction;
* формирование цепочки взаимодействий юзера — якорные товары, комбинированный фидбэк и учет OOV;
* ALBERT или DEBERTA;
* SparseAdam и ускорение обучения;
* квоты как инструмент оптимизации diversity;
* интеграция в единую инфраструктуру WBX, что позволило унифицировать процесс векторного доранжирования выдач на Главной, в поиске и каталоге;
* и многое другое!
Доклад принят в программу конференции
Нейросети в рекомендациях: от идеи до продакшна
На определённом этапе внедрения Machine Learning в бизнес-процессы компании простые и опробованные решения не дают ощутимых приростов качества — нейросети являются следующим, естественным этапом развития рекомендательных систем после простых линейных моделей и градиентного бустинга над деревьями.
Есть неисчислимое множество архитектур (RNN, LSTM, Transformers и т.д.), подходов к обучению (оптимизаторы, шедулеры и т.д.), оптимизации (прунинг, квантизация, ...) нейросетей, и каждый день появляются новые и новые подходы (Kolmogorov-Arnold Networks, Admin, sigma-reparam, Adan, ...).
В докладе рассмотрим, как мы внедряли нейросети в рекомендательную систему Ozon. Расскажем, каким образом использовали различные подходы, включая новейшие, к какой системе и архитектуре в итоге пришли, и что нам дало применение нейросетей с точки зрения бизнеса. Доклад имеет прямое прикладное значение: обозначим проблемы, с которыми столкнулись и пути их решения, а также как применять нейросети на >10K RPS в realtime-режиме: последнее действие пользователя учитывается спустя сотни миллисекунд.
--------
Соавтор доклада: Александр Хроменков, Ozon, ведущий математик-разработчик. 15 лет опыта в разработке, выпускник МФТИ, 2 года занимался научной деятельностью в Объединённом институте проблем информатики Национальной академии наук Беларуси, где получил несколько патентов, затем 4 года в Сингапурском филиале Иллинойсского Университета (США).
Доклад принят в программу конференции
Эволюция отбора кандидатов в системе товарных рекомендаций Ozon
Расскажем, как мы провели полный редизайн системы отбора кандидатов в товарных рекомендациях Ozon на основе сегментации пользователей, внедрили унифицированную нейросетевую архитектуру и улучшили релевантность наших лент.
Доклад принят в программу конференции
Поиск точек роста ВКонтакте: как мы в ленте сделали таргет для оптимизации таймспента всего приложения
Есть мнение, что оптимизировать сессионные таргеты либо очень сложно, либо вовсе невозможно. Тем более невозможно оптимизировать суммарный таймспент всего приложения. Ведь уже не получится просто обучить ML-модельку на клики и замерять в офлайне RocAuc по ним. А если цель вашей системы — рост сразу нескольких метрик, то и вовсе непонятно, как действовать. Так ли это на самом деле?
В докладе я расскажу, как вырастить таймспент всего приложения через методы машинного обучения без падения всех остальных важных метрик. Мы рассмотрим полный цикл создания сессионного таргета на таймспент, все подводные камни и неочевидные моменты. Поделюсь результатами внедрения этого таргета в умную ленту ВКонтакте.
Доклад принят в программу конференции
PostgreSQL для AI. Настоящий векторный поиск в PostgreSQL
Поиск векторов в реляционных базах данных стремительно развивается, появляются не только новые алгоритмы и виды индексов, но и новые типы данных, ускоряющие поиск, новые подходы к формированию запросов. Часто ускорение поиска возможно сделать, не переформатируя существующие данные. В докладе будет рассказано о таких способах на примере PostgreSQL, показано, какие факторы влияют на точность и скорость поиска.
Доклад принят в программу конференции
Less is more: как уменьшить отправку пушей и вырастить DAU
Мобильные пуши — это эффективный инструмент для коммуникации с пользователями. С их помощью мы можем рассказать о релевантном контенте, предложить новых друзей или напомнить о приятном моменте из прошлого. Основная же цель такой коммуникации — вернуть пользователей в приложение. Другими словами, отправка пушей нацелена на рост таких продуктовых метрик, как DAU и retention. Очевидно, что на короткой дистанции мы сможем вырастить эти метрики, отправляя все больше пушей. Но в долгосрочной перспективе бесконтрольная рассылка оповещений неизбежно приведет к потере лояльной аудитории. Как сделать так, чтобы пользователям не хотелось отключать пуши из вашего приложения, а продуктовые метрики при этом росли?
Я расскажу о том, как мы смогли сократить объем пушей на 20% и вырастить при этом DAU и timespent. В основе нашего подхода лежит модель машинного обучения, предсказывающая вероятность совершения пользователем целевого действия при получении пуша. Я расскажу о деталях обучения ML-модели, об особенностях реализации пайплайна real-time-инференса, а также о планах на дальнейшее развитие сервиса.
Доклад принят в программу конференции
Люди не нужны? Размечаем поисковую релевантность при помощи LLM
Релевантность пары «запрос — объявление» нужна для того, чтобы на запрос «Ремонт телефонов» не показывался «Ремонт холодильников». Для разметки таких пар обычно используются разметчики из сервисов вроде Толока. Им надо ответить на вопрос: «Подходит ли данное объявление этому запросу?».
Доклад будет про попытки заменить эти сервисы на LLM. Вы узнаете:
* какого качества разметки можно достичь с помощью LLM?
* в чем преимущества разметки с помощью LLM по сравнению с человеческой?
* какие подходы для дообучения и какие модели лучше всего показали себя?
* как это повлияло на продуктовые метрики?
Доклад принят в программу конференции
Как мы развернули трансформер на событиях интерфейса операторов поддержки
На докладе подробно разберем, как завели трансформер на событиях в интерфейсе оператора и как его используем в бою.
Исторически сложилось простое решение на Top Popular + марковские цепи на открытых интентах. Решение плохо масштабировалось и имело ряд проблем, поэтому было решено использовать трансформер.
В процессе деплоя трансформера под небольшой нагрузкой проблем не было, однако нам было интересно, как сработает подход NLP к событиям интерфейса оператора. И он сработал. Однако в бою поймали пару непонятных моментов, которые пришлось дебажить.
Доклад принят в программу конференции
ML на графах в e-commerce: как эффективно собирать группы на миллионах товаров
В докладе мы расскажем о том, как добавили алгоритм на графах в классический подход к матчингу товаров и получили усовершенствованный пайплайн для поиска групп одинаковых товаров на большой e-commerce-площадке.
Основные пункты доклада:
1. Про нашу задачу и цель.
2. Классический подход к матчингу товаров.
3. Community Detection Algorithms.
4. Поиск сообществ на графах товаров, self-supervised- и unsupervised-подходы.
5. Распределенные графовые алгоритмы. Кластеризация на больших данных.
Доклад принят в программу конференции
Валидация в RecSys для корреляции с А/В: что работает в контентных рекомендациях
Проблема разрыва между офлайн-валидацией рекомендательных моделей и результатами А/В-тестов по продуктовым метрикам широко распространена в индустрии и значительно влияет на эффективность работы исследователей при разработке новых моделей.
В докладе будут освещены подходы, которые помогают построить офлайн-валидацию, коррелирующую с продуктовыми метриками. Также будут показаны результаты применения данных подходов в ходе разработки рекомендательных систем для реальных сервисов экосистемы МТС.
Доклад принят в программу конференции
Умные механизмы (3)
Система управления процессом окомкования железорудных окатышей
«Северсталь» разработала комплекс моделей машинного обучения для линии окомкования окатышей. Система, внедренная на «Карельском окатыше», на основе компьютерного зрения оценивает качество процесса окомкования и автоматически управляет параметрами процесса, что позволяет повысить производительность агрегата на 11 % с сохранением качества продукции. Ранее оператор управлял процессом окомкования вручную на основании экспертизы, визуального контроля и лабораторных проб, которые производятся раз в несколько часов, а по некоторым параметрам — раз в сутки.
В докладе будут рассмотрены общие подходы, которые использовались при разработке системы, а также практические сложности при внедрении решений на основе ML на промышленных объектах.
Доклад принят в программу конференции
Разметка будущего: как GPT помогает обучать модели?
- Как GPT помогает размечать данные для обучения моделей.
-- Как GPT влияет на краудсорсинг.
-- Способы использования GPT для разметки данных:
--- полная разметка;
--- саджест;
--- предразметка;
--- плюсы и минусы каждого способа.
-- Скорость/стоимость для разных задач. GPT vs Человек в классификации, генерации и пр.
- Как внедрить GPT в разметку.
-- Промпт-инжиниринг:
--- состав хорошего промпта: определение цели, определение ограничений, установка роли, описание примеров;
--- промпт-инжиниринг как задача краудсорсинга.
-- Качество.
-- Декомпозиция и перекрытие.
- GPT помощник или замена исполнителям?
- Не GPT единым. Более легкие и дешевые модели для специфичных задач. OCR, CV, ASR.
Доклад принят в программу конференции
Задачи и вызовы при создании автопилота
Над созданием дорожного автопилота люди активно работают уже около 20 лет и, похоже, очень близки к решению. Эта задача замечательна двумя вещами: во-первых, ее очень просто сформулировать и, во-вторых, ее очень сложно решить.
Для создания автопилота, помимо прочего, вам понадобится множество ML-моделей, и дело не ограничивается одними только системами компьютерного зрения.
Обзору всех этих моделей и подходов, специфике их применения у нас, в Яндексе, будет посвящен мой доклад.
Доклад принят в программу конференции
Академические исследования (8)
Обеспечат ли LLM прорыв в эффективности AutoML?
Несмотря на множество интересных исследований и реализующих их open source-проектов в области автоматического машинного обучения (AutoML), их практическое внедрение в бизнес-процессы всё ещё далеко от массового. Тому есть множество причин — от сложности использования не-специалистами до высоких вычислительных затрат.
Изменит ли ситуацию внедрение больших языковых моделей? Что они смогут взять на себя, а что нет? И нужны ли, вообще, будут специализированные AutoML-фреймворки через пару лет?
Эти и другие вопросы обсудим в докладе, затронув как обзор state-of-the-art-решений, так и наш собственный опыт в рамках open source-фреймворка FEDOT.
Доклад принят в программу конференции
In-Context Reinforcement Learning: зачем дистиллировать алгоритмы?
Учёные давно пытаются построить Foundational Decision-Making Model — модель, которая могла бы автономно принимать решения и переноситься на разные задачи: от роботов до индустриальных процессов.
Расскажу про новую подобласть машинного обучения с подкреплением, In-Context Reinforcement Learning, которая задается этой проблемой, пытается ее решить и переосмысляет то, как нам следует использовать алгоритмы машинного обучения с подкреплением в целом.
Доклад принят в программу конференции
Kolmogorov Arnold Networks: новая архитектура нейронных сетей
Последние несколько месяцев активно обсуждается перспективная альтернатива для Многослойного перцептрона (MLPs) – Kolmogorov Arnold Networks (KANs). В KANs нет обучения линейных весов – вместо этого тренируются нелинейные функции активации. Эта архитектура позволяет, по сути, обучать математические формулы на признаках, благодаря чему их проще визуализировать и интерпретировать результаты. Также есть основания полагать, что KANs обладают более быстрыми законами масштабирования нейронных сетей (scaling laws) по сравнению с MLPs и для некоторых задач меньшим количеством параметров достигают сопоставимого качества, что может быть особенно полезным для обучения более продвинутых LLM-моделей.
В докладе мы подробно обсудим особенности работы KANs, их плюсы и минусы, сравнив их с MLPs. Разберемся, для каких задач сейчас имеет смысл использовать KANs. Посмотрим, какие есть модификации и оптимизации KANs. Рассмотрим свертки на их основе и прочие реализации уже знакомых слоев, сетей и блоков с KANs под капотом.
Доклад принят в программу конференции
MERA.Text.v.1.2.0. Что под капотом нового релиза?
MERA — инструктивный бенчмарк для оценки современных SOTA-моделей для русского языка. Бенчмарк был создан как независимый проект в ноябре прошлого года, с тех пор мы собрали множество обратной связи и пожеланий по его улучшению и справедливой оценке.
Мы представляем обновление текстовой версии бенчмарка, куда вошли: динамический лидерборд, новая кодовая база замеров по генеративному методу и с учетом систем промптов, обновление сетов и промптовой базы к ним, автоматическая проверка логов и многое другое.
В докладе подробно поговорим об ограничениях первой версии, как мы их решили, расскажем о новых функциях лидерборда и результатах моделей.
Доклад принят в программу конференции
Языковые модели и основы рационального мышления
Логическое мышление — это одна из самых проблемных способностей современных языковых моделей. Несмотря на многообещающие результаты в различных задачах, способность LLM совершать «нелепые», по мнению человека, логические ошибки делает невозможным их применение во многих прикладных сценариях, требующих надежного результата.
Мы рассмотрим различные подходы к пониманию и улучшению рациональности в LLM: с точки зрения данных, архитектуры моделей, методов оптимизации, дизайна «подсказок», а также «философский» и «психологический» подход.
Доклад принят в программу конференции
Физически обоснованное машинное обучение — что можно и что нужно
В докладе поговорим о текущем состоянии области физически обоснованного машинного обучения. Затронем два больших острова — поиск уравнений по данным и решение с помощью PINN, а также мелкие вроде нейронных операторов Фурье.
Поговорим, какие задачи уже решены, что можно сделать уже сейчас, а что требует исследования, о том, как мы применяем физически обоснованные модели и методы в приложениях. Обсудим основные современные направления, почему где-то развитие остановилось, а где-то всё цветёт и пахнет. Наметим, куда можно двинуться дальше и почему это может быть интересно на практике.
Доклад принят в программу конференции
Превращаем нейросети в SOTA и для табличных задач
Табличные данные являются основной Data Science на практике и присутствуют в абсолютном большинстве задач. Несмотря на прорывы нейросетей в компьютерном зрении и NLP, в табличном домене нейросети показывают слабые результаты, проигрывая классическим моделям градиентного бустинга.
В последнее время статус-кво меняется — нейросети на табличных данных появляются все чаще как в статьях, так и в решениях победителей соревнований на Kaggle.
В докладе мы расскажем про наше исследование State of the art табличных нейросетей: рассмотрим актуальные тенденции, покажем лучшие найденные техники и дадим практические советы. Мы расскажем, как первыми в финтехе покрыли табличными нейросетями ряд важных бизнес-задач, принося существенный финансовый эффект и открывая новые горизонты моделирования.
Доклад принят в программу конференции
Фреймворк прикладных инструментов для анализа данных на основе каузальных моделей и байесовских сетей
Фреймворк прикладных инструментов анализа данных на основе каузальных моделей представляет собой открытую библиотеку алгоритмов для решения прикладных задач анализа данных (поиск аномалий в данных, генерация синтетических данных, отбор и генерация признаков для предиктивных задач, объяснение результатов работы моделей машинного обучения) с помощью инструментов вероятностного искусственного интеллекта (ИИ), а именно на основе каузальных графических моделей. Фреймворк создан на базе проектов по разработке инструментов вероятностного ИИ и является помощником как для предметных специалистов, так и для учёных в области ИИ в задачах, подразумевающих анализ данных в условиях неопределённости.
Доклад принят в программу конференции
Оптимизация использования железа (2)
Устройство и перспективы использования ML-компиляторов
Доклад охватывает эволюцию компиляторов машинного обучения от Theano до современных решений. Рассматриваются ключевые технологии: MLIR, XLA и IREE. Подробно обсудим, как MLIR улучшает гибкость и совместимость, позволяя переиспользовать оптимизации, и как XLA ускоряет вычисления и повышает производительность моделей, учитывая гетерогенную природу вычислений. Рассмотрим конкретные примеры оптимизаций, а также перспективы и текущие исследования в области ML-компиляторов.
Доклад принят в программу конференции
Что такое ML-платформа на базе K8s? и как в ней решены разнородные требования к квотированию и шедулингу
В Т-Банке из года в год растет потребность в развитии искусственного интеллекта. Перед ML-инженерами постоянно возникают новые вызовы и им приходится решать все более сложные задачи. При этом удовлетворить потребность в ресурсах для всей группы компаний не всегда представляется возможным.
В докладе хочется:
* рассказать, что собой представляет платформа для машинного обучения и экспериментов (ML-core) на базе K8s;
* сформулировать требования к системе квотирования ресурсов и шедулинга задач: есть разные типы клиентов с кардинально разными запросами: для кого-то важна скорость запуска на гарантированных ресурсах, кто-то готов ждать не сильно долго и при этом иметь возможность занять большой слот ресурсов (размером с ноду). Также бывают случаи, когда ресурсы, выделенные под конкретный проект, не утилизируются. и мы готовы автоматизированно и временно отдать их другим проектам до тех пор, пока они не понадобятся тем, кто их зарезервировал (железо не должно простаивать). При этом в общем случае платформе неизвестно, сколько времени будет работать каждый конкретный тип нагрузки, но важно минимизировать скорость запуска и обеспечить хорошую утилизацию;
* описать путь развития системы, к чему мы в итоге пришли, и рассказать о планах развития:
- почему slurm как оркестратор нам не подошел и какие в нем проблемы?
- по каким причинам у нас не получилось реализовать все требования на голом кубе и с какими проблемами мы боролись;
- какие open source-проекты потенциально могут помочь решить наши потребности;
- почему мы выбрали volcano и какие регрессы мы от этого получили;
- в решении каких крупных задач вулкан нам очень помог;
- какие крупные доработки мы внесли в вулкан;
- почему в вулкане плохая наблюдаемость состояния шедулинга и из-за чего это так важно, и о том как мы ее улучшили;
- какие у нас планы по дальнейшему развитию системы квот и как это ложится на текущую архитектуру.
Доклад принят в программу конференции
Прочее (9)
Панельная дискуссия «AI в производственном процессе»
Сo-pilot в разработке — тренд последних лет. Однако этот трек не единственный в ландшафте AI-оптимизации внутренних процессов в бигтехе.
Вместе c коллегами из Яндекса, VK, Т-Банк, Truffle и Авито обсудим:
1. как в целом можно замерять эффективность производственного процесса — овервью и типичные трудности;
2. как вовлечь разработчиков в использование новых инструментов, какие механики использовать для масштабирования внутри компании;
3. как можно использовать AI в разных ролях: поддержки, дизайна, аналитики, солюшн-архитектуры, тестирования;
4. когда это становится cost-effective.
Поищем общие и конфликтующие позиции, послушаем success-stories из первых рук.
Доклад принят в программу конференции
AutoFE-сапёр: укрощаем взрыв размерности в автоматической генерации признаков
Чтобы данные работали для модели, их практически всегда нужно адаптировать и извлечь из них дополнительную информацию — то есть провести feature engineering. И если на небольших объёмах признаков задача, может, и не сложная, то когда их десятки тысяч — начинаются проблемы.
В Upgini мы делаем сервис поиска признаков для любой модели, используя сотни разных источников, а значит, делать feature engineering нам нужно уметь: а) универсально, б) автоматически и в) на очень широких таблицах. Да ещё и не потратить на это все деньги.
Исходя из нашего опыта, я расскажу:
* какие проблемы AutoML-инструментов для генерации признаков (в частности, Featuretools и OpenFE) не позволяют применять их на широких таблицах;
* как, взяв за основу OpenFE, мы почти полностью переписали его в свой фреймворк, чтобы эти проблемы побороть;
* какие простые и не очень соображения позволили нам генерировать в 500 раз меньше фич с лучшим качеством.
И кроме того — как ML помогает нам делать ML, чтобы помогать вашему ML :)
Доклад принят в программу конференции
Мастер-класс по работе с геоданными «Кто хочет стать геосайентистом»
Мы подготовили специализированный мастер-класс по работе с пространственными данными и их применением в моделях машинного обучения для решения типичных задач в геоаналитике телекома и финтехов, службах доставки и геомаркетинге.
В рамках мастер-класса на реальных задачах и данных рассмотрим несколько независимых кейсов, поработаем с реальными геоданными из разных областей и попробуем разные геоинструменты.
В программе МК:
■ работа с распространенными форматами данных;
□ способы визуализации данных на карте;
■ пространственные выборки;
□ построение регулярных сеток;
■ расчет изохрон;
□ обход графов;
■ создание геопризнаков.
Какие библиотеки попробуем?
Geopandas, shapely, folium, networkx, osmnx, H3, vroom и другие.
Доклад принят в программу конференции
Где применять LLM, а где это оверкилл?
Я расскажу про стандартные задачи, возникающие в повседневной работе с анализом текстов. Я покажу, что для большего числа таких задач можно применять очень простые и (что важно) дешевые методы вместо LLM.
Доклад принят в программу конференции
Как AutoML- и AutoDL-сервисы улучшают реальную разработку
В Data Science есть большая проблема с рутиной — даже для построения рядовых моделей необходимо писать повторяющийся из проекта в проект boilerplate-код. Несмотря на обилие открытых AutoML-инструментов, они редко применяются в реальной разработке из-за низкой прозрачности и автоматизации лишь малой части DS.
В Альфа-Банке мы решаем данную проблему сервисным подходом — в докладе мы расскажем, как разработали собственные AutoML- и AutoDL-сервисы, автоматизирующие большую часть цикла ML-разработки: от сбора данных и отбора признаков до построения ансамбля моделей и финальной аналитики. Сервисы помогают в разработке десяткам Data Scientist’ов в департаменте и сохраняют прозрачность и масштабируемость при высоком качестве моделей.
Доклад принят в программу конференции
Панельная дискуссия о будущем искусственного интеллекта
В конце первого дня конференции приглашаем вас обсудить фундаментальные проблемы, связанные с нашей бурно развивающейся отраслью и её местом в мире.
Мы поговорим на следующие темы.
1. Как LLM и другие мощные генеративные модели меняют рынок труда? Что происходит сейчас, и как продолжить тренд в будущее?
2. Какая кривая растёт быстрее: требования к железу для обучения или возможности, обусловленные законом Мура?
3. Станут ли вопросы этики и авторских прав серьёзными ограничителями в ближайшем будущем?
4. Кажется, уже давно пора встраивать в модели механизмы безопасности в плане защиты от атак и злоупотреблений. Как это будет происходить?
Вспомним свежайшие новости, наложим на них немного математики и проведём параллели с древней историей. Приходите, будет познавательно!
Доклад принят в программу конференции
Разметка датасетов в эпоху мультимодальности: проблемы, вызовы, решения
Датасеты — топливо для моделей, и важно готовить их качественно. В докладе на основе опыта работы над GigaChat, Kandinsky и другими проектами я расскажу об основных задачах разметки в эпоху мультимодальности: текста, аудио, картинок и видео, приведу кейсы реальной жизни и поделюсь, как спарсить что угодно и генерировать данные из необычных мест. Расскажу, как мультимодальность меняет смысл задач и почему для хорошего результата нужна глубокая техническая подготовка.
Особое внимание уделю авторазметке и разметке через LLM во всех трех вариантах, нюансам работы со всеми типами разметчиков и разберу пайплайны создания идеальных датасетов: от постановки ML-задачи до контроля и получения итогового результата.
Доклад принят в программу конференции
Где и как использовать LLM в задачах поиска
В докладе расскажу о том, как LLM могут быть полезны для улучшения качества поисковых алгоритмов.
Будут затронуты следующие вопросы:
* как ускорить разметку и собрать больше примеров для обучения и валидации;
* как обогатить индекс дополнительной информацией и знать больше о документах;
* как сгенерировать обучающие примеры для моделей ранжирования;
* как использовать эмбеддинги от LLM в проде для улучшения семантического поиска;
* как сформировать позапросный индекс, дообучая LLM, и в чем его преимущества по сравнению с эмбеддинговым поиском.
Доклад принят в программу конференции
Как ML помогает производить лекарства?
Ежедневно мы видим, как машинное обучение помогает развивать беспилотный транспорт, улучшать алгоритмы рекомендательных систем в социальных сетях и даже прогнозировать погодные условия с невероятной точностью. Но не стоит забывать и про одну из самых значимых и, пожалуй, одну из самых чувствительных областей применения машинного обучения — фармацевтическую отрасль.
Фармацевтические компании всегда находились на передовой борьбы за человеческое здоровье и благополучие. Но современные вызовы — стремительно распространяющиеся заболевания, необходимость быстрой разработки новых лекарств и вакцин, а также требования к повышению эффективности и снижению затрат — требуют кардинально новых подходов. Машинное обучение открывает перед нами потрясающие возможности, которые еще недавно казались недостижимыми.
В докладе будет рассказано про то, как машинное обучение помогает ускорить и оптимизировать процессы в различных бизнес-доменах нашей компании и какие направления машинного обучения и анализа данных мы для этого используем.
Доклад принят в программу конференции
Резерв (2)
Новый уровень ML-персонализации Lamoda: как мы усилили ее в каталоге и перенесли в другие продукты
В докладе поделюсь опытом внедрения и развития персонализации в каталоге Lamoda: расскажу про двухуровневую архитектуру ML-системы, про полученный бизнес-эффект и дальнейшие планы развития. Обсудим результаты последних экспериментов по улучшению модели, а также покажу, как на базе этой архитектуры мы создали универсальный сервис персонализации, применимый в других продуктах компании, например в рекомендациях.
Доклад принят в программу конференции
Мультимодальные рекомендации в Wildberries
Один из распространенных методов построения рекомендательных систем заключается в моделировании товаров и пользователей при помощи эмбеддингов, привязанных к их ID. Несмотря на эффективность этого подхода во многих случаях, у него есть ряд недостатков:
1) редкие товары и пользователи с малым числом покупок скорее всего будут иметь бесполезный эмбеддинг;
2) при появлении нового товара (что часто происходит на маркетплейсах) отсутствие эмбеддинга требует переобучения системы;
3) инфраструктурно хранить и обучать большое число эмбеддингов довольно проблематично;
4) привязка эмбеддингов к ID не учитывает явно свойства и атрибуты товара, что приводит к потере полезного сигнала для рекомендаций.
В докладе я расскажу об опыте построения рекомендательной системы, которая решает данные проблемы: моделирование пользователя трансформером, а товара — его контентом.
Доклад принят в программу конференции