AiConf

Данные в промышленных масштабах: как мы строим единую дата-платформу на сотни Пб для сотен команд

Продуктизация AI-решений

Базы данных / другое
Другое
Hadoop
Machine Learning
ETL
Хранилища
Обработка данных
YTSaurus

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Инженеры, аналитики

Тезисы

- Как выстроить общую платформу данных и аналитики для десятков бизнес-юнитов с разной зрелостью, не остановив развитие продуктов

35+ продуктовых направлений (Вконтакте, Mail, Одноклассники, Rustore и др.): сотни Пб данных, тысячи серверов, несколько Hadoop-кластеров и A/B-систем, сотни команд

- Проектирование и переезд на единую Data Platform

DWH, централизованная A/B-платформа, BI-слой, AI Copilot для работы с данными

- Ключевые сложности

Миграция и переход в целевое состояние, унификация подходов к данным и экспериментам

- Результаты и дальнейшие планы

Руководитель направления по работе с данными в AI VK. Отвечает за развитие DataPlatform и ряда других продуктов.

Его путь в VK начался в 2022 году с управления разработкой видеоплатформы Дзен (этому посвящён доклад «H264 жив» на HighLoad++ 2022). C 2024 года Иван отвечает за создание и запуск единой платформы данных в команде AI VK. На данный момент в команде Ивана около 120 человек.

Видео

Другие доклады секции

Продуктизация AI-решений