Совсем недавно бывшие лишь нелепой забавой нейросети стали серьезными и эффективными помощниками человека. Причем не только в механической работе, требующей точности в изучении огромного массива данных, но и в творческих задачах. Как оказалось, нейросети прекрасно рисуют картины и портреты по текстовому описанию. И делают это так, что на престижных выставках даже эксперты порой не могут разобраться, кем было создано то или иное полотно.
Но прежде, чем начать разбираться с художественными навыками нейросетей, для начала необходимо понять, что же это такое — нейронная сеть (artificial neural network). Термин нейросеть своими корнями уходит к исследованиям работы мозга человека и в наши дни применяется к свободно связанному семейству моделей, которые характеризуются большим параметрическим пространством и гибкой структурой. Звучит не очень понятно? Ничего удивительного, ведь и работа самих нейросетей не самая простая для человека неподготовленного. Но если без шуток, то нейросеть работает по принципу человеческого мозга, состоящего из нейронов, которые связаны передающими электрохимические импульсы синапсами. В нейросети роль нейронов играют вычислительные элементы, которые имитируют мозг человека. Правда, несмотря на все достижения науки, пока нейросети требуют большого количества технических ресурсов, включая мощнейшие компьютеры, а также не могут соперничать с мозгом человека, где и синапсов больше, и работать они могут параллельно друг с другом.
Нейросети пока функционируют лишь через разделение любой, даже самой простой задачи, на череду последовательных шагов к ее выполнению. Но уже сейчас нейронные сети способны существенно помогать человеку в повседневных задачах. Нейросетям доверено распознавать лица в системах видеонаблюдения, диагностировать болезни по данным анализа пациентов, заменять человека в контактных центрах в роли голосовых помощников. Даже привычные всем чат-боты тоже используют в своей основе принцип нейронных сетей. Сервисы по имитации голосов и созданию изображений-дипфейков построены также на нейросетях. А в последнее время нейронным сетям доверили даже творческие задачи — написание стихов и рекламных слоганов, сочинение музыки и сценариев для фильмов, разработку и визуализацию промышленного дизайна, а кроме того — превращение слов в изображение.
Для обучения нейросетей рисованию потребовалось не так много времени. Программисты показывали нейросети полотна художников, рисунки иллюстраторов и различные графические изображения, по которым она обучалась. Она изучала стили, как и в каких стилях мы привыкли изображать те или иные предметы. Затем нейросеть обучили самостоятельно повторять какие-то рисунки, но в другом изученном стиле. Так постепенно нейросеть научилась рисовать самые разные предметы и практически в любом художественном стиле. В настоящий момент, для того чтобы искусственный интеллект создал для вас какую-то графику, достаточно ввести текстовый запрос. Нейросеть анализирует его, понимая, какие предметы ей требуется изобразить, смотрит различные изображения из интернета, а затем соединяет их неочевидным образом, рисуя свое уникальное изображение на основе того, что было ей изучено. Часто работы искусственного интеллекта поражают своей загадочностью, и это нормально, ведь в отличие от нас с вами, искусственная сеть не понимает, насколько хорошо она справилась с той или иной задачей, и ей в любом случае требуется помощь человека.
Для корректной работы нейронной сети ей обязательно требуется корректировка человеком. Искусственный интеллект не может сам определить качество своей работы. Также следует помнить, что обучение нейронной сети это скорее анализ данных, и это совсем не тот процесс, который происходит в нашем мозгу при обучении. Нейросеть лишь анализирует исходные данные и пытается получить что-то свое на их основе, путем необычного соединения, то есть совершенно уникального в работах нейросети на самом деле нет, это просто очень аккуратное соединение уже существующих изображений. А пока давайте познакомимся с нейросетями, которым в своей работе удается совершать минимум ошибок.
Midjourney
Midjourney (https://www.midjourney.com) — одна из лучших нейросетей для создания изображений. Кроме того, большинство изображений, которые вы видели в интернете, наверняка были сгенерированы в ней. Алгоритм Midjourney работает в режиме бета-теста и доступен только на discord-сервере разработчиков. Чтобы воспользоваться нейросетью, оплатите подписку, зайдите на сервер, выберите любую комнату с названием newbies и введите команду /imagen. Остается только добавить текстовое описание, после чего алгоритм предложит 4 варианта, каждый из которых можно будет доработать. Советуем для удобства добавить бот Midjourney на свой сервер, а не пользоваться чатами для новичков, где приходят десятки сообщений в минуту. Разработчики Midjourney предлагают несколько месячных тарифных планов: Basic Plan за 10 долларов, Standard Plan за 30 долларов, Pro Plan за 60 долларов и Mega Plan за 120 долларов.
Stable Diffusion
Stable Diffusion (https://stablediffusionweb.com) — это онлайн-нейросеть, которая появилась относительно недавно. Ее особенность, которая отражена в названии, заключается в том, что алгоритм распознает формы из шумов, а потом преобразует их в определенные элементы из текстового запроса. В отличие от Midjourney, DALL-E и других нейросетей, в Stable Diffusion практически нет ограничительных алгоритмов на поиск информации, что открывает большие возможности для творчества. Нейросеть работает бесплатно без ограничений, построена на открытом исходном коде и предлагает множество вариантов доступа. Чего только стоит возможность установить ее на собственный компьютер. Достаточно, чтобы он имел видеокарту Nvidia 10XX или новее с 4 Gb видеопамяти. Stable Diffusion немного уступает Midjourney по выразительности полученных изображений, но и результаты, выдаваемые нейросетью, более предсказуемы и точнее отвечают введенным запросам.
PlaygroundAI
PlaygroundAI (https://playgroundai.com) — это нейросеть на базе Stable Diffusion с полноценным редактором. Сначала вы генерируете картинку, потом редактируете ее и в итоге создаете то изображение, которое было нужно. Сервис работает, как социальная сеть. В ленте можно подписаться на различных авторов, просмотреть их работы или взять их дизайн на доработку. Также можно воспользоваться текстовыми запросами других пользователей. PlaygroundAI умеет генерировать изображения не только по текстовому описанию, но и по готовой фотографии. Перед началом работы необходимо авторизоваться на сайте с помощью аккаунта Google. Создавать изображения можно двумя способами. Board — более простой вариант, где вы выбираете фильтр, который должен быть наложен на изображение; настраиваете размеры, детализацию, точность и задаете описание будущей картинки на английском языке. Также в формате бета-тестирования работает продвинутый редактор Canvas c большим диапазоном настроек, возможностью описывать то, чего не должно быть на рисунке, и изменять готовое изображение. В день можно генерировать до 1000 изображений, но бесплатно — только 50, затем качество сильно падает. Лимит обновляется каждый день.
PlaygroundAI не единственный сервис на базе Stable Diffusion. Вы также можете попробовать следующие варианты:
- DEZGO (https://dezgo.com). Можно настроить размер, качество и загрузить свои изображения. Есть нейросеть Anything, которая создает аниме-картинки.
- Space (https://www.mage.space). Собирает изображения по алгоритму Stable Diffusion. Настройки отсутствуют. Работает только по текстовым запросам.
- DreamStudio (https://beta.dreamstudio.ai). Большое количество настроек. Можно загружать свои фотографии.
- DreamLike (https://dreamlike.art). Условно-бесплатный сервис. Работает только с текстовыми командами.
InstantArt
InstantArt (https://instantart.io) — доступная и мощная нейросеть, которая генерирует яркие и детализированные изображения на базе моделей Stable Diffusion. Для начала работы потребуется простая регистрация. К сожалению, авторизоваться с помощью аккаунта Google не получится. Для создания изображения откройте вкладку «Generate» и введите описание картинки на английском языке. Очень удобно, что в специальной строке можно указать то, что не надо изображать на рисунке. В разделе с настройками вам предложат выбрать модель, размеры изображения, их количество, а также то, насколько точно нейросеть должна следовать заданному запросу. InstantArt сейчас довольно популярен среди пользователей, поэтому иногда приходится довольно долго ждать, пока нейросеть сгенерирует ваше изображение.
DALL-E 2
В 2021 году одно из детищ Илона Маска, занимающееся разработкой и лицензированием технологий на основе машинного обучения — компания OpenAI — представила нейросеть DALL-E, способную создавать изображение по его текстовому описанию. Опыт был признан удачным и в 2022 году была анонсирована DALL-E 2 (https://openai.com/dall-e-2). К основным особенностям нейросети добавилось в 4 раза более высокое качество итоговых изображений, возможность редактировать загруженные фотографии и создавать третье изображение на основе двух загруженных, сочетая в получившемся новом характерные черты стиля исходных иллюстраций. На старте DALL-E 2, названная в честь испанского художника-сюрреалиста Сальвадора Дали, находилась в закрытом бета-тесте и доступа всех желающих к ней не было предусмотрено. Но по окончании испытаний на основе нейросети все желающие могут создавать собственные приложения для обработки и создания изображений или пользоваться возможностями проекта. На официальном сайте нейросети необходимо завести персональный аккаунт, а затем потратить свой баланс «кредитов» на создание изображений. Бесплатно доступно 50 кредитов, а со второго месяца их лимит сокращается до 15. Если этого вам недостаточно, кредиты можно купить.
GLIDE
Все та же OpenAI представила в 2021 году нейросеть GLIDE, которая способна обрабатывать загруженные изображения, а также генерировать уникальные иллюстрации на основе их текстового описания. С помощью сервиса можно добавлять на изображения различные элементы, причем GLIDE может работать не только с фотографиями, но и рисунками. В обоих случаях нейронная сеть «считывает» стиль исходной иллюстрации, что позволяет гармонично вписывать новый объект, адаптируя его под общий стиль изображения. По качеству своей работы новая нейросеть превосходит DALL-E и даже может качественно справляться с необычными заданиями, но и как любая нейросеть, периодически GLIDE способна дать сбой при выполнении самого простого запроса. Описание своего проекта разработчики из OpenAI представили в виде научной публикации на портале arXiv.org (https://arxiv.org/abs/2112.10741), а также выложили на GitHub (https://github.com/openai/glide-text2im) исходный код сокращенной версии нейросети для тестов всеми заинтересовавшимися проектом. Так что если вы захотите воспользоваться наработками команды инженеров OpenAI, то придется скачать опубликованный ими код и самостоятельно организовать на своих мощностях собственную нейросеть. Если возможности такой нет, то придется воспользоваться другими вариантами сервисов из нашей подборки.
GauGAN 2
В 2019 году компания NVIDIA представила нейронную сеть GauGAN, генерирующую изображения на основе эскизов, а в конце 2021 года была создана GauGAN 2. Основным преимуществом GauGAN 2, получившей имя в честь французского постимпрессиониста Поля Гогена, стало умение создавать иллюстрации на основе текстовых описаний. Для обучения использовался суперкомпьютер NVIDIA Selene, десятки миллионов высококачественных изображений и текстов, на основе которых нейросеть тренировалась устанавливать связь между словами и иллюстрациями, стилем текста и готовым изображением. В демонстрационном режиме GauGAN 2 доступна на сайте компании-разработчика, а вот первую версию своей нейросети NVIDIA воплотила в релизном продукте. Алгоритмы нейронной сети работают с изображениями в редакторе Canvas (https://neuralcanvas.io), воспользоваться которым можно на официальном сайте проекта.
DALL·E mini
DALL·E mini (https://github.com/borisdayma/dalle-mini) — это упрощенный вариант нейросети DALL·E для создания иллюстраций по их текстовому описанию. Основное отличие от проекта DALL-E 2 заключается в том, что эта нейросеть генерирует изображения в открытом доступе и воспользоваться ею может любой желающий, причем совершенно бесплатно. Минусов, учитывая бесплатность и общедоступность нейросети, тоже хватает. Во-первых, официальный сайт сервиса не всегда работает из-за наплыва трафика. Во-вторых, время ожидания готового результата может составлять десятки минут. В-третьих, сохранить можно изображение только в не самом высоком качестве. Зато на выходе по одному запросу нейросеть позволяет получить сразу 9 иллюстраций.
Dream by Wombo
По своим возможностям нейросеть от канадского стартапа похожа на DALL·E mini, но отличия все-таки есть. К схожим чертам можно отнести предельно простой интерфейс. На сайте достаточно указать описание, текст которого должен укладываться в 200 символов, и кликнуть по клавише Create, чтобы получить иллюстрацию. В остальном — различия. Dream by Wombo (https://dream.ai/create) специализируется только на вертикальных иллюстрациях и это важно иметь ввиду перед началом работы. Зато нейросеть позволяет выбрать стиль готового изображения из предложенных на сайте вариантов, а при желании и вовсе можно прикрепить референсную картинку, чтобы попытаться получить похожую иллюстрацию. Если не выйдет — можно тут же заново сгенерировать получившееся изображение. С ограничениями доступ к нейросети бесплатный, а полный доступ будет стоить от 9,99 доллара в месяц.
Kandinsky 2.2
Нейросеть Kandinsky 2.2 (https://editor.fusionbrain.ai) за считанные секунды способна сгенерировать изображение по текстовому описанию на одном из более 100 поддерживаемых языков мира. Она умеет создавать картину в режиме бесконечного полотна, смешивать изображения и дорисовывать их. Разработкой и обучением нейросети занимались специалисты Sber AI при партнерской поддержке ученых из Института искусственного интеллекта AIRI на объединенном датасете Sber AI и компании SberDevices. Сгенерировать изображения можно как в Telegram-боте нейросети, так и на ее официальной странице или в приложении «Салют». Kandinsky 2.2 работает на базе онлайн-платформы Fusion Brain. Вы можете ввести не только текстовый запрос, но и выбрать стиль изображения.
Bing Image Creator
В марте этого года Microsoft добавила функцию Bing Image Creator для генерации изображений на основе текстовых запросов в чат-боте Bing. Система работает на базе нейросети DALL-E от OpenAI и доступна по ссылке или в боковой панели в браузере Edge. Введя текстовое описание изображения, предоставив дополнительный контекст, такой как местоположение или род деятельности персонажа, а также выбрав художественный стиль, Image Creator создаст изображение из вашего собственного воображения. Отметим, что генератор изображений Bing Image Creator доступен в творческом режиме ответов чат-бота Bing. Этот режим, хоть и позволяет творить, блокирует создание потенциально опасного или запрещенного контента. Количество генераций не лимитируется, однако быстро будут созданы лишь 25 первых изображений. На создание других уйдет значительно больше времени.
Шедеврум
Нейросеть от команды Яндекса пока находится только в начале своего пути, но уже доступна для бета-тестирования пользователями в виде приложений для Android и iOS. Шедеврум (https://shedevrum.ai) умеет рисовать картины по текстовому описанию на русском и английском языках, но, как и все подобные сервисы, очень любит конкретику. Чем более полным окажется описание изображения, тем точнее будет итоговый результат. Нейросеть может подражать стилю известных художников и их полотен, работает в заданных стилях и поддерживает, в том числе, и фотореализм, когда изображение будет почти неотличимо от обычной фотографии. Главный минус Шедеврума заключается в том, что возможности работы с сервисом пока сильно ограничены. Скачав приложение, вы сможете без проблем посмотреть уже имеющиеся работы, а вот создать собственное изображение получится только после входа в аккаунт Яндекса и одобрения заявки. Впрочем, учитывая бета-статус сервиса, это неудивительно.
Nightcafe
Nightcafe (https://nightcafe.studio) — бесплатный сервис по генерированию изображений с помощью искусственного интеллекта. Название Nightcafe («Ночное кафе») является отсылкой к известному произведению Винсента Ван Гога. Для начала работы нужно пройти регистрацию или авторизоваться с помощью аккаунта Google. Перед генерацией пользователю предлагают выбрать стиль, количество вариантов изображения и алгоритм: Coherent, Artistic, самый популярный Stable или DALLE-2. Необходимо сформулировать точный запрос на английском языке, поскольку бесплатно вы сможете создать ограниченное количество изображений. Каждый день пользователю дают 5 кредитов, а генерация четырех вариантов картинки со стандартными характеристиками стоит один кредит. Заработать кредиты можно разными нехитрыми действиями, например, просматривая рекламные ролики.
Lexica Aperture
Нейросеть Lexica Aperture (https://lexica.art/aperture) позволяет использовать не только текстовый запрос, но и ввести исключения. Работает на базе собственного алгоритма Lexica Aperture, который неплохо умеет создавать арт-иллюстрации. На сайте есть онлайн-библиотека изображений от других пользователей, которые можно взять и отредактировать под себя. Чтобы начать работать с Lexica Aperture, нужно либо зарегистрироваться по e-mail либо авторизоваться с помощью аккаунта Google. На сайте есть своя поисковая система по базе ранее сгенерированных изображений и, собственно, генератор изображений по текстовому описанию. В поиске можно выбрать картинку и скопировать запрос, по которому она создавалась. Этот запрос можно отредактировать, чтобы использовать для дальнейших генераций. Разобраться в принципе работы несложно. Во вкладке Generate в поле Describe your image вы описываете изображение, которое хотите получить, а в поле Negative prompt указываете то, чего не должно быть на картинке. В блоке Dimensions можно задать размеры рисунка, а в Advanced settings — необходимый контраст. Изображения генерируются достаточно быстро. Lexica Aperture позволяет бесплатно создать не более 100 изображений в месяц, но по одному запросу генерирует сразу 4 варианта. Полный доступ к сервису стоит от 8 долларов в месяц.
StarryAI
Еще один бесплатный сервис для генерации изображений на основе текстовых описаний и картинок-референсов. Начать работу можно после авторизации с помощью аккаунтов Google или Apple. Помимо web-версии StarryAI (https://starryai.com), есть приложения для iOS и Android. Перед началом генерации можно выбрать стилистику, добавить картинку-референс, а также указать количество вариаций и уровень проработки деталей. Сервис базируется на нейросетях Argo и Altair, а также поддерживает более 30 стилей различных цифровых художников, которые можно смешивать между собой и создавать свои картины. Для создания изображений используется система кредитов. Каждый день пользователю начисляются 5 кредитов, которые можно тратить на генерацию изображений и их улучшение. Кредиты не обязательно покупать: их можно зарабатывать, выполняя простые задания, например, просматривая рекламу. В StarryAI, как и в PlaygroundAI, есть элементы социальной сети. Подписка стоит от 15,99 доллара в месяц.
Кстати, вот еще несколько нейросетей, которые генерируют картинки по описанию или обрабатывают загруженные снимки в художественных стилях и представлены в виде приложений для мобильных устройств:
- Lensa (https://prisma-ai.com/lensa). В приложение встроен инструмент Magic Avatars, который работает через Stable Diffusion. Задав стиль, можно получить набор аватарок. Цена опции стартует от 4,99 доллара.
- FaceTune (https://www.facetuneapp.com/lp/ft-youniverse). В редакторе есть кнопка Create with AI, которая создает изображения на базе ваших фотографий и текстовых запросов. Работает бесплатно, но на сгенерированных картинках будет ватермарка.
- Draw Things (https://drawthings.ai). В режиме Different Models и Different Styles подключается нейросеть Stable Diffusion, которую можно настроить или указать текстом, что нужно сделать. Приложение доступно только на iOS.
CM3Leon
В компании Марка Цукерберга Meta утверждают, что разработанная их инженерами новая модель CM3Leon (https://github.com/kyegomez/CM3Leon) является прорывом. Ее отличием является высокая производительность при преобразовании текста в изображение. Кроме того, это одна из первых моделей, обеспечивающая обратную операцию — создание подписей к изображениям. Большинство современных генераторов изображений, включая OpenAI DALL-E, Google Imagen и Stable Diffusion, при создании картинок используют диффузию — процесс постепенного удаления шума из первоначального изображения по мере приближения к поставленной цели. Результат получается убедительным, но данный алгоритм требует значительных вычислительных ресурсов, что делает работу таких систем дорогостоящей, а сами модели — медленными, и в реальном времени они функционировать попросту не могут. Модель CM3Leon действует принципиально иначе — в ее основе лежит алгоритм-трансформер, предусматривающий оценку релевантности исходных данных, будь то текст или изображение. При обучении CM3Leon использовались 2 млн. изображений, лицензированных у Shutterstock, а самая мощная версия модели имеет 7 млрд. параметров, что в 2 раза больше, чем у DALL-E 2. Наконец, здесь использован механизм дообучения SFT (Supervised Fine-Tuning), обычно свойственный генераторам текста. В результате CM3Leon воспринимает в качестве исходных данных весьма конкретные команды — вплоть до того, в какой области изображения в пикселях должен находиться тот или иной предмет.
Firefly
Компания Adobe также не осталась в стороне от популярности DALL-E, Midjourney и других нейросетей, представив собственный сервис Firefly (https://firefly.adobe.com). Firefly представляет собой расширение генеративных инструментов на базе искусственного интеллекта, которые Adobe представила в прошлом году для Photoshop и Lightroom. На данный момент сервис находится в стадии бета-тестирования, и доступ к нему можно получить бесплатно, подав заявку. Нейросеть позволяет не только генерировать изображения по текстовому описанию и применять разные стили к имеющимся картинкам, но и тонко их настраивать. Например, можно заменять одежду на людях, а также редактировать лица, меняя эмоции, ширину улыбки, открытость глаз, тип волос и т.д. Можно также последовательно уточнять запросы для изображения, добавляя все новые и новые эффекты, меняя фон и прочее. Кстати, в прошлом месяце Adobe выпустила обновление собственной нейросети Firefly для генерации изображений при помощи искусственного интеллекта. Теперь пользователи Firefly могут составлять описания для генерации изображений на множестве поддерживаемых языков, в число которых входит азербайджанский.
Итог
Нейросети для генерации изображений — это удобный инструмент для обработки и стилизации готовых фотографий. Для тех, кто обладает художественными навыками и готов разбираться с тестовыми запросами, нейросети могут стать постоянным инструментом в создании цифровых картин и креативных изображений для постов в социальных сетях.