Последние несколько лет можно назвать расцветом генеративных моделей, работающих в самых разных модальностях. Доклад будет посвящён одной из самых трудоёмких и сложных задач этого направления — синтезу полноценных видео по тексту на естественном языке (text-to-video), а также подходам к решению этой задачи на основе диффузии и flow matching.
Обсудим теоретические аспекты диффузионного и flow matching-процессов, их преимущества и недостатки. Разберёмся с задачей генерации видео по текстовому описанию. Поговорим о новой архитектуре Kandinsky 4.0, особенностях её обучения, нюансах сбора, фильтрации, хранения данных для обучения и полученных результатах. Затронем основные трудности обучения и сложности оценивания качества генеративных text-to-video-моделей.
В заключение обсудим применение text-to-video-моделей и их потенциал в будущем (для создания рекламы, мини-фильмов, генерации синтетических данных для Robotics и Self-Driving Cars).