категории | RSS

Перспективы обучения AI-моделей

Nous Research предлагает Lighthouse Attention: метод, который решает проблему обработки длинных последовательностей в стандартном механизме внимания. Классический FlashAttention сравнивает каждый токен друг с другом — из-за этого вычисления и потребление памяти резко растут с увеличением длины текста.

Lighthouse Attention строит многоуровневую пирамиду из текста: данные группируются и кратко обобщаются. Система оценивает эти обобщения, выбирает самые важные части и подает во FlashAttention только их. После обработки результаты распространяются обратно на весь исходный контекст, чтобы сохранить связи в тексте. Кастомные вычисления и изменения аппаратной части при этом не нужны.

Почему это важно: при контексте около 512 тысяч символов метод работает до 17 раз быстрее стандартных подходов. Обучение на длинных последовательностях ускоряется в 1,4−1,7 раза при длине около 98 тысяч символов. Если результат удастся масштабировать, это существенно снизит стоимость и время обучения моделей.

Развитие нейросетевых архитектур

Meta* (запрещена в РФ) показала AIRA: система автоматически ищет и создает новые архитектуры нейросетей. В основе — два агента с разными задачами:

  • AIRA-Compose формирует общую схему и структуру модели
  • AIRA-Design отвечает за реализацию внутренних механизмов и технических деталей

Такое разделение обязанностей оказалось эффективнее, чем единый агент, который выполнял бы весь процесс самостоятельно. AIRA не ограничивается улучшением существующих моделей, а полностью проектирует новые архитектуры через последовательный процесс поиска на основе координации двух агентов.

Почему это важно: за 24 часа AIRA нашла архитектуры, которые превзошли Llama 3.2 на 350 млн, 1 млрд и 3 млрд параметров. Это показывает, что агентные системы уже могут автоматически создавать конкурентоспособные архитектуры. Это означает, что в будущем поиск нейросетевых архитектур (NAS) и многие этапы исследований могут быть автоматизированы.

Также на неделе:

  • NVIDIA выпустила Polar — инфраструктуру для RL-обучения AI-агентов без необходимости переписывать их под отдельный фреймворк
  • Anthropic представила Claude Opus 4.8 с фокусом на честность модели и параллельную координацию сотен агентов
  • Microsoft рассказала о SkillOpt — первом систематическом текстовом оптимизаторе для навыков AI-агентов, который позволяет улучшать их работу без изменения весов модели
  • Sakana предлагает DiffusionBlocks — метод обучения моделей по одному блоку, снижающем потребление памяти во время обучения
  • Harvard University показал AutoScientists — систему децентрализованных команд AI-агентов для длительных научных исследований без участия человека
  • Google представила ScientistOne — автономную систему для научных исследований с акцентом на проблему галлюцинаций и верификации в работах AI-агентов

Новости представлены аналитическим центром red_mad_robot.




Источник новости: hi-tech.mail.ru

Bot
2026-06-01T14:25:02Z

Здесь находятся
всего 0. За сутки здесь было 0 человек