категории | RSS

Исследование по повышению производительности в системах RAG

Исследователи из Еврейского университета в Иерусалиме обнаружили, что количество документов, обработанных с помощью технологии расширенной генерации поиска (RAG), влияет на производительность языковой модели, даже если общая длина текста остается постоянной.

Исследовательская группа использовала набор данных проверки MuSiQue, содержащий 2417 вопросов с ответами. Каждый вопрос ссылается на 20 абзацев Википедии, при этом два-четыре абзаца содержат релевантную информацию об ответе, а остальные служат реалистичными отвлекающими факторами.

Чтобы изучить, как количество документов влияет на производительность, исследователи создали несколько разделов данных. Они постепенно сократили количество документов с 20 до 15, 10, восьми и, наконец, до двух-четырех документов, содержащих релевантную информацию. Чтобы поддерживать единообразное количество токенов и позиционирование информации, они расширили выбранные документы, используя текст из оригинальных статей Википедии.

Тестирование нескольких моделей с открытым исходным кодом, включая Llama-3.1, Qwen2 и Gemma 2, показало, что сокращение количества документов повысило производительность до 10 процентов в большинстве случаев. Qwen2 оказался исключением, возможно, более эффективно обрабатывая несколько коллекций документов. Хотя этим протестированным моделям всего несколько месяцев, более новые версии, такие как Llama-3.3, Qwen2.5 и Gemma 3, уже заменили их. Сравнение производительности показывает, что Qwen2 сохраняет стабильную производительность, в то время как Llama-3.1 и Gemma-2 снижаются до 10% при увеличении количества документов

Языковые модели работали значительно лучше, когда им предоставлялись только вспомогательные документы, что означало более короткий контекст и устранение отвлекающего контента. Результаты показали, что похожие, но не связанные между собой документы, часто извлекаемые в системах RAG, могут запутать модель и снизить производительность.Гистограмма, показывающая оценки F1 для Qwen-2 72B, Qwen-2 7B, Llama-3.1 72B, Llama-3.1 8B, Gamma-2 27B и Gamma-2 9B на разных наборах данных.

Исследование показывает, что обработка нескольких документов усложняет задачи в среде поиска. Исследователи подчеркивают, что поисковые системы должны сбалансировать релевантность и разнообразие, чтобы минимизировать конфликты. Будущие модели могут выиграть от механизмов, которые могут идентифицировать и отбрасывать противоречивую информацию, продолжая при этом использовать разнообразие документов.

Исследователи признают определенные ограничения исследования, включая отсутствие исследований вариаций подсказок и эффектов порядка данных. Они сделали свои наборы данных общедоступными, чтобы облегчить дальнейшие исследования в области обработки нескольких документов.

Поскольку контекстные окна продолжают расти, продолжается дискуссия о том, остаются ли системы RAG необходимыми. В то время как языковые модели становятся лучше в обработке больших объемов текста одновременно, архитектуры RAG показывают особые преимущества при использовании меньших моделей с открытым исходным кодом.

Источник



Источник новости: habr.com

DimonVideo
2025-03-30T20:50:02Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика