Павел Плюснин на AiConf 2024

Kolmogorov Arnold Networks: новая архитектура нейронных сетей

Академические исследования

Python

Алгоритмы и их сравнение

Machine Learning

Теория

Расширение кругозора

26 сентября, 11:10, Зал «Сфера»

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

В докладе подробно рассматривается новый подход в нейронных сетях, а также его приложения в сравнении с современными доминирующими подходами на основе сверток (в случае CV) и трансформернов (в части NLP). Отдельно рассматриваются особенности реализации вычислений KAN на CPU и GPU.

Целевая аудитория

ML-/DL-/AI-исследователи и инженеры.

Тезисы

Скачать презентацию Все презентации конференции

Последние несколько месяцев активно обсуждается перспективная альтернатива для Многослойного перцептрона (MLPs) – Kolmogorov Arnold Networks (KANs). В KANs нет обучения линейных весов – вместо этого тренируются нелинейные функции активации. Эта архитектура позволяет, по сути, обучать математические формулы на признаках, благодаря чему их проще визуализировать и интерпретировать результаты. Также есть основания полагать, что KANs обладают более быстрыми законами масштабирования нейронных сетей (scaling laws) по сравнению с MLPs и для некоторых задач меньшим количеством параметров достигают сопоставимого качества, что может быть особенно полезным для обучения более продвинутых LLM-моделей.

В докладе мы подробно обсудим особенности работы KANs, их плюсы и минусы, сравнив их с MLPs. Разберемся, для каких задач сейчас имеет смысл использовать KANs. Посмотрим, какие есть модификации и оптимизации KANs. Рассмотрим свертки на их основе и прочие реализации уже знакомых слоев, сетей и блоков с KANs под капотом.

Павел Плюснин

Т-Банк

• AI R&D Lead в Т-Банк.
• Основатель конференции НейроSet.
• Спикер на различных конференциях и преподаватель в МФТИ.