Последовательно алгоритмы улучшают схематичную картинку размера 6464 до тех пор, пока искусственный интеллект Imagen AI не осознает то что он больше ничего сделать уже не может по заданным параметрам. Затем размер изображения увеличивается до 256 х 256 пикселя.
В результате, изображение уже в высоком качестве доходит до размеров 1024×1024. Это происходит не за счет масштабирования - на каждом из трех этапов нейросеть Google Imagen улучшает детали на изображении.
В первой версии изображения деталь может иметь ширину лишь 3 пикселя, а во второй — 12 пикселей. А в компании утверждают, что ее нейросеть Imagen генерирует изображения с "невероятным фотореализмом".
Правда, в компании признали невыполнимость запроса «лошадь верхом на астронавте» в Imagen и DALL-E 2: нейросети постоянно ставят человека на лошадь, а не наоборот.
Чтобы сравнить Imagen с другими моделями преобразования текста в изображение (включая DALL-E 2, VQ-GAN+CLIP и модели скрытой диффузии), исследователи создали тестовую платформу под названием DrawBench. Это список из 200 текстовых подсказок, которые были введены в каждую модель. Оценщиков попросили оценить каждое изображение. Они «предпочитают Imagen другим моделям при параллельном сравнении как с точки зрения качества выборки, так и с точки зрения выравнивания изображения и текста», — говорится в сообщении Google.
В режиме закрытой бета-версии Imagen не доступен для всех желающих. Изобретатели опасаются, что пользователи будут использовать нейросеть для генерации неприемлемых изображений и тем самым усугубят существующие в обществе предрассудки.
«Генеративные методы могут использоваться в злонамеренных целях, включая преследование и распространение дезинформации, и вызывают много опасений по поводу социальной и культурной изоляции и предвзятости», — говорится в официальном документе, опубликованном Google.
Google предупреждает других производителей ИИ, чтобы они с осторожностью публиковали модели преобразования текста в изображение, не уделяя должного внимания информации, на которой обучается ИИ.