Последние несколько месяцев активно обсуждается перспективная альтернатива для Многослойного перцептрона (MLPs) – Kolmogorov Arnold Networks (KANs). В KANs нет обучения линейных весов – вместо этого тренируются нелинейные функции активации. Эта архитектура позволяет, по сути, обучать математические формулы на признаках, благодаря чему их проще визуализировать и интерпретировать результаты. Также есть основания полагать, что KANs обладают более быстрыми законами масштабирования нейронных сетей (scaling laws) по сравнению с MLPs и для некоторых задач меньшим количеством параметров достигают сопоставимого качества, что может быть особенно полезным для обучения более продвинутых LLM-моделей.
В докладе мы подробно обсудим особенности работы KANs, их плюсы и минусы, сравнив их с MLPs. Разберемся, для каких задач сейчас имеет смысл использовать KANs. Посмотрим, какие есть модификации и оптимизации KANs. Рассмотрим свертки на их основе и прочие реализации уже знакомых слоев, сетей и блоков с KANs под капотом.