Экстремальное сжатие больших языковых моделей

ML Edge — оптимизация обучения и инференса, дистилляция, квантизация, hardware и т.д.

Google Outlook Apple

Доклад принят в программу конференции

Целевая аудитория

Инженеры и исследователи в области EfficientDL / ML Edge / Natural Language Processing, а также все интересующиеся внедрением больших языковых моделей в продукт или инференсом на пользовательских ПК / мобильных устройствах.

Тезисы

Скачать презентацию Все презентации конференции

За последние несколько лет был достигнут значительный прогресс в области обработки естественного языка. Современные большие языковые модели способны эффективно решать сложные задачи во множестве приложений — от генерации текста и общения с пользователями до решения задач олимпиадного уровня и дополнения кода. Однако большой размер и значительный объем вычислений затрудняет внедрение сильных моделей из-за высокой стоимости.

Одним из самых эффективных методов уменьшения размера модели и ускорения ее работы является квантизация — представление параметров в некоторой более компактной форме. Однако при сжатии в 8 и более раз стандартные подходы, сжимающие параметры поодиночке слишком сильно ухудшают качество работы языковой модели.

В работе «Extreme Compression of Large Language Models via Additive Quantization» мы предложили новый метод квантизации — аддитивную квантизацию больших языковых моделей, позволяющий более точно представлять параметры модели и тем самым достигать значительно более высокого качества на широком наборе задач. А в последующей работе «PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression» был предложен метод дообучения, оптимизирующий непрерывные и дискретные параметры, дающий дополнительный прирост в качестве.

Денис Кузнеделев

Яндекс

Исследователь в области глубокого обучения, область интересов — ускорение и сжатие нейросетей, компьютерное зрение.