Ни для кого не секрет, что технический прогресс не стоит на месте. И в последнее время он как-то уж совсем не стоит на месте, со скоростью олимпийского бегуна, который ощущает себя не мужчиной. Каждое из последних десятилетий можно смело озаглавить каким-либо общим технологическим прорывом: в 80-е годы прошлого века это были компьютеры; в 90-е - это, несомненно, Интернет; в 00-е годы нового века это всевозможные мобильные устройства - от Palm КПК до Iphone; 10-е годы это социальные сети; ну а 20-е это нейросети.
Тихо-мирно развивающиеся последние лет десять, они резко ворвались сейчас в нашу жизнь. Если в прошлом году над ними смеялись, то в 2023-м кто с азартом, кто с ужасом все создают и пересылают друг другу созданные нейросетями картинки и тексты. Как это будет развиваться в будущем - можно только догадываться, но тот факт, что ряд IT гигантов опубликовал открытое письмо с требованием запретить дальнейшее развитие нейросетей - уже намекает на дальнейшее безудержное веселье.
Всех мучает вопрос - заменят ли нейросети специалистов. И однозначно ответить на него пока нельзя, т.к. нейронки пока, несмотря на впечатляющие результаты, находятся в самом начале своего пути. Однозначно можно сказать, что уже сейчас ряд должностей можно смело убирать. В основном, это самые примитивные сотрудники на фрилансе - недоучившиеся дизайнеры, программисты, написатели текстов. Но, мы считаем, что свято место пусто не бывает, и новая технология создаст еще больше рабочих мест.
Когда-то была популярна профессия машинистки печатной машинки, но с появлением компьютеров - такой машинисткой стал каждый - от простого клерка до руководителей компаний. Возможно, что так будет и здесь - появятся специалисты по нейросетям, специалисты по 3d печати, а базовые задачи, которые поручали специально обученным, но малопрофессиональным сотрудникам - будут гораздо быстрее и эффективнее выполнять все.
Принцип работы всех нейросетей одинаков - это программа, в которую загружают данные (книги, сайты, библиотеки, картины, фотографии, видео), и которая потом на основе этих данных создает свое уникальное в каждом случае произведение. Плюс - нейросети обучаемы, как в том анекдоте: «Какого цвета снег? - Белого. - Какого цвета бумага? - Белого. -Что пьет корова? -Молоко». Так и тут, нейросети скармливают одинаковые данные, и она выдает примерно такой обобщенный результат в дальнейшем.
В отличии от поисковиков в интернете, которые обучены находить конкретные данные, нейросеть «сканирует» интернет или свой массив данных и выдает свой ответ, полученный на основе анализа этих данных.
Нейросети на текущий момент делятся на текстовые и графические. Текстовые нейросети уже развиваются довольно долгое время, и обосновались в наших домах в качестве голосовых помощников: Siri, Alexa, Маруся, Алиса. Принцип работы у них похожий, но сравним пока с обычным поисковиком в интернете. При этом, Алиса на текущий момент является лучшей из них. С нетерпением ждем интеграции с нейросетями.
На текущий момент, лучшей текстовой нейросетью является ChatGPT4, которая по заявлениям создателей превосходит предыдущую версию в 600 раз. А другие текстовые нейросети - и того более. Это примерно, как доисторический неандерталец по сравнению с квантовым физиком. И это только начало. Текстовые нейросети могут:
Chat GPT4 умеет писать профессионально тексты, программы, решать сложные уравнения, распознавать рукописный текст, итд и делает это на профессиональном уровне.
При этом, поддерживается мультиязычность. Не важно на каком языке задается вопрос. При этом, она обучается и запоминает все, о чем вы с ней разговариваете, подстраивается под ваш стиль общения.
Как было сказано выше, то что выдает нейросеть зависит от той информации, которую в нее загружают, и то как с ней общаются. Одна из первых версий GPT в итоге стала ругаться матом, выдавать расистские высказывания, рассказывать рецепты создания оружия и где его можно приобрести, и ее пришлось «прирезать». Современная ChatGPT гораздо более корректна и мягко «съедет с темы».
На момент написания статьи попробовать ChatGPT4 можно только на официальном сайте (требует VPN и иностранного телефона, из-за санкций в сторону России). А в социальной сети Telegram полно ботов, которые ее имитируют. И работают либо на GPT3, либо на аналогичных сетях. Проверить это можно либо задав вопрос: «на какой версии gpt ты работаешь?», либо (так как авторы таких каналов обучают свои нейросети обходить этот вопрос) - посмотрев примеры вопросов к ChatGPT4, созданных другими пользователями и сравнить ответы.
На текущий момент есть и российские сети, разрабатываемые отечественными компаниями. Это Балабоба от Яндекса (ох уж этот нейминг..), и ruGPT от Сбера. Их можно попробовать бесплатно.
Также, можно поднять и обучить свою нейросеть у себя на компьютере, но это уже тема отдельной статьи.
Графические нейросети создают картинки из текстового запроса. И делают это тоже очень резво. Тут также многое зависит от того, на чем обучали нейросеть. На каком контенте. Универсальную нейросеть, которая умеет все, создать довольно сложно - они используют графический процессор (видеокарту), и требуют больших мощностей (интересно, можно ли приспособить сюда майнеры криптовалют :). Такое под силу крупным компаниям, которые будут продавать платный доступ. Но скорее всего, появится множество отдельных сервисов - как платных, так и нет, специализирующихся на отдельных стилях.
Среди графических нейросетей пальму первенства, без всякого спора держит Midjourney версии 5. Сейчас она доступна только на официальном сайте и на официальном канале мессанджера Discord. Дает примерно 25-50 генераций картинок бесплатно, а потом требует оплаты от 10$ в месяц. Также, есть много каналов в Telegram, утверждающих, что они работают на версии 5. Но на текущий момент это не так. Используется либо версия 3, либо другие нейросети (чаще всего Stable Diffusion).
Stable Diffusion - это нейросеть с открытым кодом, и опробовать ее может любой желающий, скачав с сайта и установив на свой компьютер. Есть нюансы. Она довольно требовательна к железу компьютера (ну, аналогов почти нет, и сравнить требования особо не с чем)
Где-то видел, что минимальные требования - 4Гб видеокарты. Стабильная работа - 6Гб, оптимально от 12Гб. Но и на более слабом железе будет работать с небольшой оптимизации конфигурационного файла.
Плюс Stable Diffusion в том, что она ваша личная. Можно загрузить готовые обученные модули других авторов, можно обучить (долго) самостоятельно под любой контент. Генерация будет не такая качественная, как у Midjourney, но без запретов и цензуры, что сильно расширяет границы для творчества. /:daemon face:/.
Из минусов - запросы в исходной версии только на английском. Но есть сайты, где можно опробовать Stable Diffusion и с мультиязычными запросами.
Еще есть американская нейросеть DALL-E, которая на текущий момент находится в закрытом тестировании.
Из отечественных продуктов широко известны ruDALL-E и Fusion Brain (Kandinsky2.1) от Сбера.
Fusion Brain натренирована на картинах художников и очень аутентично справляется с несложными запросами «в стиле художника такого то». Прям здорово. Чуть подробнее про Fusion Brain в соседней статье.
Шедеврум - графическая нейросеть от Яндекса. На такущий момент только как приложение для смартфона. И слегонца сырое. Ничего, доделают.
В Midjourney хорошо работают и простые запросы, но в случае с остальными нейросетями, да и самой Midjourney - чем полнее запрос, тем лучше результат.
Пример запроса на русском для Fusion Brain: по запросу " Суслик с сигаретой, стоящий в лесу на пне, стиль Ивана Шишкина" (как было сказано выше, Fusion Brain специализируется на художниках.
Вот пример такого же запроса для одного из Telegram ботов выглядит как из того прикола про животных-наркоманов, конечно:
А это, Stable Diffusion на модели Deliberate v2: (запрос тот же, но на на английском).
А вот что умеет Midjourney. (Все версии от 1 до 5).
Ну и пример более расширенного запроса для нейросети Midjourney v5 с большим количеством уточняющих параметров (большинство других сетей так пока не умеют) на подписях к каждой фотографии видны параметры, с использованием стилей различных известных фотографов (см.фото):
Мы указываем что мы хотим видеть: portrait of marmot smoking sigarette, далее идет уточнение по качеству фотографии - ultra-realistic, 8k - можно играться с параметрами, используя ухудшение. На самом деле, на стилизации некоторых старых фотографов я задал этот параметр неверно, т.к. пленочная фотография тех времен не имела такой ультра-четкости. Здесь нужно было, как-раз, добавить параметр зернистости пленки. Далее параметр как-раз пленки (я накосячил и перепутал canon и kodak =) , но Midjourney справился - canon gold 200. Эти тонкости также влияют на результат. Далее указан портретный объектив 85mm, и далее - указание стиля конкретного фотографа. --v - означает версию Мида.
На последних примерах хорошо видно эволюцию, которую проделали text2image нейросети почти за год.
Нужно понимать, что Midjourney занимается очень большая команда профессионалов, которая решила влезть в первый паровоз, и у них это хорошо получается. Некоммерческие (и частные) нейросети работают с гораздо меньшими бюджетами.
На текущий момент остается только предполагать и философствовать - останется это развлечением единиц, или войдет в нашу жизнь как Интернет со смартфонами. Уже сейчас появляются первые «ласточки» этого будущего - парень, написавший диплом с помощью ChatGPT. Фотограф, выигрывавший конкурсы с помощью Midjourney и многие другие. Само собой, что в ближайшее время ажиотаж станет гораздо больше, возможности нейросетей станут несоизмеримо выше, и через годы нас, так же, как и с Интернетами, ждет правовое регулирование этого сегмента. Уже сейчас вопрос об авторском праве созданных нейросетями текстов и фотографий - не находит ответа. Чья это фотография - автора, оплатившим допуск к сети и составившего запрос, либо команды, создававшей нейросеть. А быть может - самой нейросети - и в этот момент невольно вспоминается старик Азимов с вопросом: «А снятся ли андроидам электроовцы?».
Минутка рекламы: мы планируем поднять к лету (если все будет хорошо в мире) для тестов свой сервер для опытов по Stable Diffusion и одну из текстовых opensource сетей. А сли вам понравилась статья, можно внести небольшую лепту в его создание и порекомендовать нашу компанию. Мы правда очень хорошо и ответственно делаем свою работу, (ремонт компьютеров и допы :)
Также можно отправить ссылку на эту статью своим друзьям, если сочли ее полезной, это поднимет посещаемость сайта.
Следующая статья - про установку графической неросети Stable Diffusion на компьютер с ОС Windows.
Ну, а если статья не понравилась - напишите свои замечания в наш чат. Робот Дмитрий с радостью ответит на ваши вопросы (он любит).