AiConf

Конференция завершена.

Ждем вас

на AiConf

в следующий раз!

Генерация видео: from zero to hero

Компьютерное зрение и генерация изображений

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Доклад посвящен этапам развития известной генеративной модели Kandinsky от команды Сбер. Слушатели узнают про основные отличия новых архитектур модели, возможностях новой версии Kandinsky и применении ее в современных продуктах. Доклад будет интересен как для практиков, так и теоретикам.

Целевая аудитория

Deep dive в актуальную сегодня область генеративного искусственного интеллекта (генерацию полноценного видео по тексту). Разработчики и исследователи познакомятся с последними топовыми разработками и актуальными исследованиями в области генерации видео по тексту, узнают об основных методах (авторегрессионные, диффузионные, flow matching-модели) генерации видео и архитектурах (DiT, U-Net, U-ViT и т. д.), успешно решающих эту задачу. Кроме того, слушатели познакомятся с тем, что делаем мы (в Sber AI) в области генерации видео по тексту. Руководители и владельцы бизнесов смогут узнать, как применять модели генерации видео для решения прикладных задач (создание рекламы, мини-фильмов, генерация синтетических данных для Robotics и Self-Driving Cars).

Тезисы

Последние несколько лет можно назвать расцветом генеративных моделей, работающих в самых разных модальностях. Доклад будет посвящён одной из самых трудоёмких и сложных задач этого направления — синтезу полноценных видео по тексту на естественном языке (text-to-video), а также подходам к решению этой задачи на основе диффузии и flow matching.

Обсудим теоретические аспекты диффузионного и flow matching-процессов, их преимущества и недостатки. Разберёмся с задачей генерации видео по текстовому описанию. Поговорим о новой архитектуре Kandinsky 4.0, особенностях её обучения, нюансах сбора, фильтрации, хранения данных для обучения и полученных результатах. Затронем основные трудности обучения и сложности оценивания качества генеративных text-to-video-моделей.

В заключение обсудим применение text-to-video-моделей и их потенциал в будущем (для создания рекламы, мини-фильмов, генерации синтетических данных для Robotics и Self-Driving Cars).

Окончил механико-математический факультет МГУ им. М.В.Ломоносова. Руководит научной группой Sber AI Research в Сбере и является научным консультантом в Институте искусственного интеллекта AIRI, победитель рейтинга Forbes «30 до 30». Руководит разработкой моделей генерации изображений и видео по тексту Kandinsky и Kandinsky Video и является одним из разработчиков модели GigaChat. В 2021 командой Дениса были обучены первые в России фундаментальные русскоязычные трансформерные модели генерации изображений по тексту ruDALL-E (Malevich и Kandinsky 1.0), после этого первые диффузионные модели генерации изображений по тексту Kandinsky 2.X, 3.X и модели генерации видео по тексту Kandinsky Video 1.X. Под его руководством в Sber AI была создана модель Digital Пётр, активно использующаяся историками для распознавания рукописей Петра I, а в AIRI были проведены первые в РФ эксперименты по созданию мультимодальных моделей (RUDOLPH, OmniFusion). Текущие исследования и интересы Дениса, помимо компьютерного зрения и мультимодального обучения, включают в том числе строго математические вопросы, касающиеся статистического оценивания f-дивергенций и кластеризации на основе этих оценок (в частности, решения задачи поиска неоднородностей в волокнистых материалах). Автор большого количества научных публикаций (google scholar): это публикации в журналах ВАК, WoS, Scopus уровня Q1 и Q2, доклады на высокорейтинговых (A* и A) конференциях по искусственному интеллекту (с последующей публикацией материалов). Активно преподает: ведет семинары по теории вероятностей и математической статистике у 2-3 курсов химического факультета МГУ и является старшим преподавателем Академии искусственного интеллекта.

Видео

Другие доклады секции

Компьютерное зрение и генерация изображений