AiConf

Конференция завершена.

Ждем вас

на AiConf

в следующий раз!

Что такое ML-платформа на базе K8s, и как в ней решены разнородные требования к квотированию и шедулингу

Оптимизация использования железа

Доклад принят в программу конференции

Мнение Программного комитета о докладе

ML-платформа все чаще становится обязательной частью инфраструктуры для крупных big-tech-компаний. В докладе коллеги расскажут, какие фреймворки помогают оркестрации и квотированию железа под обучение и инференс и почему из коробки оно не всегда оптимально.

Целевая аудитория

MLOps, разработчики, руководители.

Тезисы

В Т-Банке из года в год растет потребность в развитии искусственного интеллекта. Перед ML-инженерами постоянно возникают новые вызовы и им приходится решать все более сложные задачи. При этом удовлетворить потребность в ресурсах для всей группы компаний не всегда представляется возможным.

В докладе хочется:
* рассказать, что собой представляет платформа для машинного обучения и экспериментов (ML-core) на базе K8s;
* сформулировать требования к системе квотирования ресурсов и шедулинга задач: есть разные типы клиентов с кардинально разными запросами: для кого-то важна скорость запуска на гарантированных ресурсах, кто-то готов ждать не сильно долго и при этом иметь возможность занять большой слот ресурсов (размером с ноду). Также бывают случаи, когда ресурсы, выделенные под конкретный проект, не утилизируются. и мы готовы автоматизированно и временно отдать их другим проектам до тех пор, пока они не понадобятся тем, кто их зарезервировал (железо не должно простаивать). При этом в общем случае платформе неизвестно, сколько времени будет работать каждый конкретный тип нагрузки, но важно минимизировать скорость запуска и обеспечить хорошую утилизацию;
* описать путь развития системы, к чему мы в итоге пришли, и рассказать о планах развития:
- почему slurm как оркестратор нам не подошел и какие в нем проблемы?
- по каким причинам у нас не получилось реализовать все требования на голом кубе и с какими проблемами мы боролись;
- какие open source-проекты потенциально могут помочь решить наши потребности;
- почему мы выбрали volcano и какие регрессы мы от этого получили;
- в решении каких крупных задач вулкан нам очень помог;
- какие крупные доработки мы внесли в вулкан;
- почему в вулкане плохая наблюдаемость состояния шедулинга и из-за чего это так важно, и о том как мы ее улучшили;
- какие у нас планы по дальнейшему развитию системы квот и как это ложится на текущую архитектуру.

Руководитель группы разработки ML-core jobs, лидер профессии Go, куратор Go-курса для внешних студентов и сотрудников T-Банка. Закончил МГТУ им. Баумана.

Видео

Другие доклады секции

Оптимизация использования железа