категории | RSS

Google начала тестировать сервис генерации картинок без промптов

Google Labs начала тестировать Whisk — экспериментальный сервис для генерации изображений без текстовых подсказок пользователей. Он позволяет отправлять картинки в качестве входных данных и получать их переработанные варианты.

Whisk позволяет отправить отдельные изображения для объекта, сцены и стиля. Затем сервис ремикширует их. 

Под капотом сервиса работает модель Gemini, которая в момент загрузки исходных картинок автоматически создаёт их подробное описание. Затем она передаёт эти данные в последнюю модель генерации изображений Imagen 3. 

Google утверждает, что Imagen 3 — это «модель изображения высочайшего качества, способная генерировать картинки с ещё большей детализацией, более богатым освещением и меньшим количеством отвлекающих артефактов». Новый генеративный инструмент ИИ «улавливает суть содержимого картинки». Инструмент не извлекает все характеристики из входного изображения, поэтому у объекта готовой картинки может быть другой тон кожи, рост или причёска.

Whisk также позволяет настраивать текстовую подсказку, чтобы не потерять существенные элементы на выходе. Просматривать и редактировать базовые текстовые подсказки можно на любом этапе генерации  благодаря функции «Уточнить».

На этапе раннего тестирования с участием художников и представителей других профессий они описывали Whisk как новый тип творческого инструмента, а не традиционный редактор изображений. 

Инструмент уже доступен пользователям в США, которые зарегистрировались в программе Google Labs.

Ранее Google рассказала о новой модели Gemini 2.0 Flash, ИИ-агентах и опции под названием Deep Research, которая позволяет вызвать чат-бота Gemini для поиска в Интернете нужных данных и составления подробных отчётов. Также компания изучает возможности ИИ-агентов для их использования в помощи геймерам в видеоиграх.



Источник новости: habr.com

DimonVideo
2024-12-17T10:50:02Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика