Эффективность моделей AI определяется качеством данных, используемых для их обучения или настройки. Размеченные данные были основополагающим элементом машинного обучения и генеративного AI на протяжении большей части их истории. Размеченные данные — это информация, помеченная для того, чтобы помочь моделям AI понимать контекст во время обучения.
Поскольку предприятия спешат внедрить приложения AI, скрытым узким местом часто оказывается не технология, а многомесячный процесс сбора, отбора и маркировки данных, специфичных для домена. Этот «налог на маркировку данных» заставил технических руководителей выбирать между задержкой развертывания и принятием неоптимальной производительности общих моделей.
Databricks нацелен на решение этой проблемы. На этой неделе компания опубликовала исследование нового подхода под названием Test-time Adaptive Optimization (TAO). Основная идея подхода заключается в том, чтобы обеспечить настройку большой языковой модели (LLM) корпоративного уровня, используя только входные данные, которые уже есть у компаний — без необходимости в метках — и при этом достигать результатов, превосходящих традиционную тонкую настройку на тысячах помеченных примеров. Databricks начиналась как поставщик платформы для хранения данных и в последние годы все больше внимания уделяла AI. Databricks приобрела MosaicML за 1,3 миллиарда долларов и постоянно внедряет инструменты, которые помогают разработчикам быстро создавать приложения AI Исследовательская группа Mosaic в Databricks разработала новый метод TAO.
«Получить маркированные данные сложно, а плохие маркировки напрямую приведут к плохим результатам, поэтому передовые лаборатории обращаются к поставщикам маркировки данных, чтобы покупать дорогие данные с аннотациями от людей», — рассказал VentureBeat Брэндон Куи, старший научный сотрудник Databricks. «Мы хотим встречаться с клиентами там, где они есть, маркировки были препятствием для внедрения корпоративного AI, а с TAO — больше нет».
Источник
Источник новости: habr.com