Специалисты из Университета Рутгерса, Ant Group и Salesforce Research разработали новую структуру, которая позволяет агентам ИИ выполнять более сложные задачи, интегрируя информацию из окружающей среды и автоматически создавая связанные воспоминания для построения сложных структур.
Платформа под названием A-MEM применяет передовые технологии, такие как LLM и векторные представления, чтобы анализировать взаимодействие пользователя с системой и формировать в памяти представления, которые можно легко извлекать и применять.
Память имеет решающее значение в приложениях LLM и агентских приложениях, поскольку она обеспечивает долгосрочное взаимодействие между инструментами и пользователями. Однако современные системы памяти либо неэффективны, либо основаны на заранее заданных схемах, которые могут не соответствовать меняющемуся характеру приложений и взаимодействию с ними.
По словам исследователей, A-MEM представляет собой структуру, которая обеспечивает автономное и гибкое управление памятью для агентов LLM.
Каждый раз, когда агент LLM взаимодействует со своей средой, будь то доступ к инструментам или обмен сообщениями с пользователями, A-MEM генерирует «структурированные заметки в памяти», которые содержат как явную информацию, так и метаданные, такие как время, контекстное описание, релевантные ключевые слова и связанные воспоминания. Некоторые детали генерируются LLM по мере изучения взаимодействия и создания семантических компонентов.
После создания памяти для вычисления значений встраивания всех её элементов применяется модель кодировщика. Благодаря сочетанию семантических элементов и встраиваний, созданных с помощью LLM, мы получаем контекст, который понятен человеку, а также инструмент для эффективного поиска по сходству.
Одним из интересных компонентов фреймворка A-MEM является механизм связывания различных заметок в памяти без необходимости в предопределенных правилах. Для каждой новой заметки в памяти A-MEM идентифицирует ближайшие воспоминания на основе сходства их вложенных значений. Затем LLM анализирует полное содержимое извлеченных кандидатов, чтобы выбрать те, которые наиболее подходят для привязки к новой памяти.
«Используя поиск на основе встраивания в качестве начального фильтра, мы обеспечиваем эффективную масштабируемость, сохраняя при этом семантическую релевантность, — пишут исследователи. — A-MEM может быстро выявлять потенциальные связи даже в больших базах данных без исчерпывающего сравнения. Что ещё более важно, анализ на основе LLM позволяет получить более детальное представление о связях, выходящее за рамки простых показателей сходства».
После создания ссылок на новую память A-MEM обновляет извлечённые воспоминания на основе их текстовой информации и связей с новой памятью. По мере добавления новых воспоминаний этот процесс совершенствует структуры знаний системы, позволяя обнаруживать закономерности и концепции более высокого уровня в разных воспоминаниях.
В каждом взаимодействии A-MEM использует контекстно-зависимый поиск в памяти, чтобы предоставить агенту соответствующую историческую информацию. Получив новую подсказку, A-MEM сначала вычисляет её значение встраивания с помощью того же механизма, который используется для заметок в памяти. Система использует это встраивание для извлечения наиболее релевантных воспоминаний из хранилища памяти и дополняет исходную подсказку контекстной информацией, которая помогает агенту лучше понимать текущее взаимодействие и реагировать на него.
«Восстановленный контекст обогащает процесс мышления агента, связывая текущее взаимодействие с соответствующим прошлым опытом и знаниями, хранящимися в системе памяти», — пишут исследователи.
Исследователи протестировали A-MEM на LoCoMo, наборе данных очень длинных разговоров, охватывающих несколько сеансов. LoCoMo содержит сложные задания, такие как вопросы с несколькими переходами, которые требуют обобщения информации в нескольких сеансах чата, и вопросы-рассуждения, которые требуют понимания информации, связанной со временем. Набор данных также содержит вопросы о знаниях, которые требуют интеграции контекстуальной информации из беседы с внешними знаниями.
Эксперименты показывают, что A-MEM превосходит другие базовые методы агентской памяти в большинстве категорий задач, особенно при использовании моделей с открытым исходным кодом. Примечательно, что, по словам исследователей, A-MEM обеспечивает превосходную производительность, снижая при этом затраты на вывод, требуя в 10 раз меньше токенов при ответе на вопросы.
Эффективное управление памятью становится ключевым требованием по мере того, как агенты LLM интегрируются в сложные корпоративные рабочие процессы в различных областях и подсистемах. A-MEM, код которого доступен на GitHub, одна из нескольких платформ, которые позволяют предприятиям создавать агенты LLM с расширенной памятью.
Источник
Источник новости: habr.com