In-Context Reinforcement Learning: зачем дистиллировать алгоритмы?

Академические исследования

Machine Learning

Расширение кругозора

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Владислав расскажет про In-Context RL — новую подобласть машинного обучения с подкреплением, которая базируется на предположении, что можно дистиллировать траектории RL-обучения в модель. Приведет примеры текущих работ в области, в том числе собственных, которые прошли апробацию на ICML 2024.

Целевая аудитория

Учёные, специалисты по машинному обучению.

Тезисы

Все презентации конференции

Учёные давно пытаются построить Foundational Decision-Making Model — модель, которая могла бы автономно принимать решения и переноситься на разные задачи: от роботов до индустриальных процессов.

Расскажу про новую подобласть машинного обучения с подкреплением, In-Context Reinforcement Learning, которая задается этой проблемой, пытается ее решить и переосмысляет то, как нам следует использовать алгоритмы машинного обучения с подкреплением в целом.

Владислав Куренков

AIRI

Занимается наукой и созданием frontier-технологий, связанных с Reinforcement Learning. Руководитель группы «Adaptive Agents» @ AIRI, Ex. Tinkoff Research