Поймать и обезвредить: 14 Unit-тестов для RAG и решения через Knowledge Graphs

AI-инструменты для жизни

Фреймворки

Python

Поисковые системы

Архитектура данных, потоки данных, версионирование

Архитектуры / другое

Типовые ошибки

Базы знаний / wiki

Knowledge Ops

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Разработчики RAG-систем, AI-инженеры и техлиды, которым нужны не теоретические рассуждения, а конкретные инструменты для отладки, тестирования и исправления логических ошибок в LLM-приложениях.

Тезисы

Векторный RAG лжет уверенно. Он путает, игнорирует даты документов и галлюцинирует там, где нужна строгая логика. Но как это отловить не "на глаз", а системно?

Вместо слайдов мы откроем IDE. За 40 минут мы прогоним 14 сценариев сбоя (RAG Failures) через тестовый стенд и покажем, как Knowledge Graphs (GraphRAG) решают то, что не под силу векторам.
Вы получите пошаговую инструкцию и готовый репозиторий, чтобы проверить свою систему:
Test Suite: Набор "неудобных" датасетов и Unit-тестов (Pytest + DeepEval), которые ломают классический поиск.
Logic Engine: Как внедрить детерминированную логику (Set Difference, Rule Checking) поверх графа для вопросов типа "Чего не хватает?" или "Совместимы ли компоненты?".
Temporal & Structural Fixes: Код для разрешения конфликтов версий документов и проблем инверсии связей.
Это практическое руководство: как превратить "магию" LLM в инженерную, тестируемую систему.

Андрей Носов

Raft

NLP Lead.
Архитектор ИИ.
CTO.

Видео

Другие доклады секции

AI-инструменты для жизни

Реакция страуса: тектонический сдвиг в разработке

Мик Вайсман

WaiWai

Упрощаем жизнь дежурных инженеров с помощью AI-ассистента на LangFlow

Дмитрий Ковтун

ООО "МВС"

От промптов к продукту: как мы упаковали лучшие практики работы с AI в обучающую платформу

Павел Путинцев

Alpina Digital

Обмануть всех, что ты продуктивен. Как я руковожу через ИИ: промпты и кейсы

Александр Ворожищев

AGIMA

Как мы разработали и внедрили систему проверки кода в научных статьях и дипломных работах

Андрей Гетманов

Институт ИИ, Университет ИТМО

Как AI code review на базе GPT/Claude может заменить junior ревьюеров

Глеб Решетнев

Яндекс Карты

Краткая история внедрения ИИ в разработку ПО и SDLC

Владимир Маслов

Sbertech

Автономный персональный AI: делаем и хостим сами

Алексей Веснин

HyperSphere

Контент-маркетинг в эпоху ИИ: как мы делаем YouTube-ролики на 600+ тысяч просмотров

Сорокин Денис

Скобеев и Партнеры

Как измерить корову без линейки

Ольга Татаринова

Epoch8.co

ML-анализ видео в Crowd (или как решать задачу трекинга без явного таргета?)

Николай Курбатов

Yandex

Тестовый доклад с форматом выступления

Никита Абзаев

Ontico

30 нейросетей в одном окне: UX-дизайн для мультимодельной платформы

Павел Путинцев

Alpina Digital

Голос клиента в реальном времени: AI-решения для управления опытом B2B-клиентов

Екатерина Кибирева

Cloud.ru

А что если написать не код, а.... роман?

Валерий Баранов

Яндекс

Enterprise GenAI API в Альфа-Банке: платформа вместо зоопарка интеграций

Елена Яновская

Альфа-Банк

Капитанский мостик

Валентин Малых

MWS AI

Как сделать так, чтобы нейросети говорили о тебе хорошо

Антон Пустовалов

Репутация

AI Routing или как создававать AI продукты - эффективными

Дмитрий Филиппов

ИП Филиппов Д.С. (Getmyai)

От RAG к агентам - как LLM-агенты расширяют RAG

Эмин Мамедов

Магнит

Как мы научили AI понимать, что реально происходит на полках супермаркета

Артём Сметанин

Epoch8

Применение локальных AI/ML компонент со средствами личной продуктивности

Алексей Веснин

HyperSphere

За пределами вайбкодинга: фреймворк Eval driven Management для системной разработки и трансформации управления в гибридной среде (ИИ + человек)

Ксения Плесовских

Нейроэксперт

Лайв-кодинг: пишем AI ассистента с помощью одного пальца (И Cursor)

Павел Юркин

Yandex

От новостного шума к рабочим черновикам: опыт построения AI‑сервиса для контент‑команд

Светлана Юдаева

NOTAMEDIA

DS собеседует DS: как выявлять читеров

Максим Муравьёы

МегаТех

Китайский для AI-ресерчера и разработчика

Дмитрий Ильин

OpenIPC

Почему 80% AI-проектов не дают экономического эффекта — и как это учитывать на старте

Никита Константинов

NIKTA.AI

Освобождение от очереди в бэклог: как ИИ дает техпису автономию в работе с кодом

Савина Мария

МойОфис