AiConf

Экстремальное сжатие больших языковых моделей

ML Edge — оптимизация обучения и инференса, дистилляция, квантизация, hardware и т.д.

Доклад принят в программу конференции

Целевая аудитория

Инженеры и исследователи в области EfficientDL / ML Edge / Natural Language Processing, а также все интересующиеся внедрением больших языковых моделей в продукт или инференсом на пользовательских ПК / мобильных устройствах.

Тезисы

За последние несколько лет был достигнут значительный прогресс в области обработки естественного языка. Современные большие языковые модели способны эффективно решать сложные задачи во множестве приложений - от генерации текста и общения с пользователей до решения задач олимпиадного уровня и дополнения кода. Однако большой размер и значительный объем вычислений затрудняет внедрение сильных моделей из-за высокой стоимости.

Одним из самых эффективных методов уменьшения размера модели и ускорения ее работы является квантизация - представление параметров в некоторой более компактной форме. Однако при сжатии в 8 и более раз стандартные подходы, сжимающие параметры поодиночке слишком сильно ухудшают качество работы языковой модели.

В работе "Extreme Compression of Large Language Models via Additive Quantization" мы предложили новый метод квантизации - аддитивную квантизацию больших языковых моделей, позволяющий более точно представлять параметры модели и тем самым достигать значительно более высокого качества на широком наборе задач. А в последующей работе "PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression" был предложен метод до-обучения, оптимизирующий непрерывные и дискретные параметры, дающий дополнительный прирост в качестве.

Исследователь в области глубокого обучения, область интересов — ускорение и сжатие нейросетей, компьютерное зрение.

Видео