Google Labs начала тестировать Whisk — экспериментальный сервис для генерации изображений без текстовых подсказок пользователей. Он позволяет отправлять картинки в качестве входных данных и получать их переработанные варианты.
Whisk позволяет отправить отдельные изображения для объекта, сцены и стиля. Затем сервис ремикширует их.
Под капотом сервиса работает модель Gemini, которая в момент загрузки исходных картинок автоматически создаёт их подробное описание. Затем она передаёт эти данные в последнюю модель генерации изображений Imagen 3.
Google утверждает, что Imagen 3 — это «модель изображения высочайшего качества, способная генерировать картинки с ещё большей детализацией, более богатым освещением и меньшим количеством отвлекающих артефактов». Новый генеративный инструмент ИИ «улавливает суть содержимого картинки». Инструмент не извлекает все характеристики из входного изображения, поэтому у объекта готовой картинки может быть другой тон кожи, рост или причёска.
Whisk также позволяет настраивать текстовую подсказку, чтобы не потерять существенные элементы на выходе. Просматривать и редактировать базовые текстовые подсказки можно на любом этапе генерации благодаря функции «Уточнить».
На этапе раннего тестирования с участием художников и представителей других профессий они описывали Whisk как новый тип творческого инструмента, а не традиционный редактор изображений.
Инструмент уже доступен пользователям в США, которые зарегистрировались в программе Google Labs.
Ранее Google рассказала о новой модели Gemini 2.0 Flash, ИИ-агентах и опции под названием Deep Research, которая позволяет вызвать чат-бота Gemini для поиска в Интернете нужных данных и составления подробных отчётов. Также компания изучает возможности ИИ-агентов для их использования в помощи геймерам в видеоиграх.
Источник новости: habr.com