Новая веха в проектировании AI-систем. Нейроновости недели

Разное

14:25 01-06-2026 Автор

Bot

Перспективы обучения AI-моделей

Nous Research предлагает Lighthouse Attention: метод, который решает проблему обработки длинных последовательностей в стандартном механизме внимания. Классический FlashAttention сравнивает каждый токен друг с другом — из-за этого вычисления и потребление памяти резко растут с увеличением длины текста.

Lighthouse Attention строит многоуровневую пирамиду из текста: данные группируются и кратко обобщаются. Система оценивает эти обобщения, выбирает самые важные части и подает во FlashAttention только их. После обработки результаты распространяются обратно на весь исходный контекст, чтобы сохранить связи в тексте. Кастомные вычисления и изменения аппаратной части при этом не нужны.

Почему это важно: при контексте около 512 тысяч символов метод работает до 17 раз быстрее стандартных подходов. Обучение на длинных последовательностях ускоряется в 1,4−1,7 раза при длине около 98 тысяч символов. Если результат удастся масштабировать, это существенно снизит стоимость и время обучения моделей.

Развитие нейросетевых архитектур

Meta* (запрещена в РФ) показала AIRA: система автоматически ищет и создает новые архитектуры нейросетей. В основе — два агента с разными задачами:

AIRA-Compose формирует общую схему и структуру модели
AIRA-Design отвечает за реализацию внутренних механизмов и технических деталей

Такое разделение обязанностей оказалось эффективнее, чем единый агент, который выполнял бы весь процесс самостоятельно. AIRA не ограничивается улучшением существующих моделей, а полностью проектирует новые архитектуры через последовательный процесс поиска на основе координации двух агентов.

Почему это важно: за 24 часа AIRA нашла архитектуры, которые превзошли Llama 3.2 на 350 млн, 1 млрд и 3 млрд параметров. Это показывает, что агентные системы уже могут автоматически создавать конкурентоспособные архитектуры. Это означает, что в будущем поиск нейросетевых архитектур (NAS) и многие этапы исследований могут быть автоматизированы.

Также на неделе:

NVIDIA выпустила Polar — инфраструктуру для RL-обучения AI-агентов без необходимости переписывать их под отдельный фреймворк
Anthropic представила Claude Opus 4.8 с фокусом на честность модели и параллельную координацию сотен агентов
Microsoft рассказала о SkillOpt — первом систематическом текстовом оптимизаторе для навыков AI-агентов, который позволяет улучшать их работу без изменения весов модели
Sakana предлагает DiffusionBlocks — метод обучения моделей по одному блоку, снижающем потребление памяти во время обучения
Harvard University показал AutoScientists — систему децентрализованных команд AI-агентов для длительных научных исследований без участия человека
Google представила ScientistOne — автономную систему для научных исследований с акцентом на проблему галлюцинаций и верификации в работах AI-агентов

Новости представлены аналитическим центром red_mad_robot.

Источник новости: hi-tech.mail.ru

Чат в Telegram

Регистрация

Войти

Главная

Опросы

Форум

Обзор новинок

Обменник

Android

Трекер

PC

Видео

Картинки

Новости

Разные новости

Статьи

Блоги

Комментарии

ПОДДЕРЖИ сайт

Новая веха в проектировании AI-систем. Нейроновости недели

Разное

Перспективы обучения AI-моделей

Развитие нейросетевых архитектур

Также на неделе:

Похожие файлы

AI учится оценивать свои возможности. Нейроновости недели

AI учится самостоятельной работе с данными. Нейроновости недели

AI берется за исследования и симуляции. Нейроновости недели

Исчезающие сообщения: раскрыта новая функция WhatsApp