Эндрю Барто и Ричард Саттон получили премию имени А. М. Тьюринга за создание фундаментальных технологий, которые лежат в основе современного ИИ. В том числе, они были отмечены за недавние достижения в области создания больших моделей логического мышления.
Ассоциация вычислительной техники (ACM) отметила заслуги Барто и Саттона за их инновационные исследования в сфере обучения с подкреплением. Эта технология впоследствии позволила достичь значительных результатов, таких как AlphaGo и современные большие модели рассуждений (LRM).
Премия, которую часто называют «Нобелевской премией по информатике», представляет собой денежное вознаграждение в размере одного миллиона долларов и присуждается за алгоритмы и концепции 1980-х годов, которые позволяют машинам учиться самостоятельно, используя сигналы обратной связи.
Специалисты в области ИИ разработали концепцию, основанную на психологических принципах обучения через обратную связь о своих действиях. Они преобразовали эту идею в математическую модель, которая теперь применяется во многих сферах ИИ. Их учебник «Обучение с подкреплением: введение», опубликованный в 1998 году, стал основополагающим трудом в этой области и был процитирован более 75 тысяч раз.
В сочетании с глубоким обучением их методы привели к значительным достижениям: AlphaGo победил чемпиона мира Ли Седоля, ChatGPT обучался с помощью обратной связи от людей, а также появились новые LRM, такие как OpenAI o3 и Deepseek R1. Эта технология используется везде: от продвинутой робототехники до улучшений в сетевых технологиях, проектировании микросхем и онлайн-рекламе.
Старший вице-президент Google Джефф Дин считает, что их работа соответствует первоначальным целям Алана Тьюринга: «В лекции 1947 года Алан Тьюринг заявил: "Чего мы хотим, так это машины, которые могут учиться на собственном опыте". Обучение с подкреплением, впервые предложенное Барто и Саттоном, непосредственно отвечает задаче Тьюринга».
Сотрудничество началось в 1978 году в Массачусетском университете, где Барто был наставником Саттона во время его докторантуры. Их исследования получили множество наград и привлекли миллиарды инвестиций в ИИ. Сегодня Барто является почётным профессором Массачусетского университета в Амхерсте, а Саттон работает в Университете Альберты и в компании Keen Technologies. Саттон также известен тем, что написал эссе «Горький урок».
Барто и Саттон становятся частью группы новаторов в сфере компьютерных технологий, в которую входят первопроходцы в области глубокого обучения Йошуа Бенжио, Джеффри Хинтон и Ян Лекун, получившие премию в 2019 году. Премия, названная в честь британского математика Алана Тьюринга, присуждается за выдающийся вклад в развитие компьютерных наук с 1966 года.
Источник
Источник новости: habr.com