Как устроены нейросети и для чего они нужны
Интересно, что сделать конкретный продукт на базе нейросети может даже небольшая команда. Так, над Midjourney работали всего около 10 человек.
"Главное, чего я хочу, - чтобы на ближайшие 10 лет у нас был дом, в котором мы могли бы экспериментировать с технологиями и создавать продукты, которые будут иметь значение не только для меня, но и для всего мира. Ну и получать удовольствие в процессе", - говорит Дэвид Хольц, основатель Midjourney.
Работу Midjourney обеспечивают два технологических прорыва в области искусственного интеллекта: умение нейросетей понимать человеческую речь и создавать образы на основе текстовой информации. Нейросеть обучают выстраивать соответствие между текстовыми описаниями и визуальными образами на сотнях миллионов примеров. Результаты такого обучения позволяют решать различные задачи - генерацию картинок по текстовому описанию, генерацию текстовых описаний по картинкам, дорисовку частей изображения и так далее.
В основе большинства современных нейросетевых продуктов, таких как Midjourney, Lensa или, например, Riffusion, нейросеть Stable Diffusion - гигантский проект, обученный на миллиардах существующих изображений. Она открыта для всех и бесплатна. Нейросеть можно дообучить под себя. Загружая конкретные стили, можно обучить сеть подражать этому стилю. Так же и с объектами - если загрузить в нее 100 фотографий капусты и сказать, что это капуста, нейросеть получит объект "капуста". И если кто-то вспомнил антиспам-защиту, предлагающую выбрать фотографии, на которых есть, допустим, светофоры или автобусы, то вы правильно вспомнили. В этот момент вы обучаете чью-то нейросеть.
Ну а дальше в зависимости от задачи. При использовании Midjourney, чтобы создать изображение, вы вносите в чат с ботом Midjourney слова, описывающие картину, которую в итоге хочется получить. Система сгенерирует четыре изображения на выбор, а дальше наиболее подходящую картинку можно масштабировать, изменять и дорабатывать до идеала.
В случае с Lensa вместо уже упомянутой капусты вы загружаете свои фото. В результате создается условный объект "Вася", а затем на основании текстового описания, которое формируется алгоритмом в формате "Вася + портрет + задумчивый + очень красивый + смотрит вдаль + в стиле Рембрандта + 4к" и которое вы не видите, нейросеть берет портреты всех красивых задумчивых мужчин, которые смотрят вдаль, берет ваше лицо, берет картины Рембрандта и из этого всего комбинирует изображения.
Все немного забавнее в случае с Riffusion, создающей музыку. Эта нейросеть тоже работает с изображениями, но музыки. Речь о сонограммах, которые сохраняют звук в двумерном изображении. Нейросеть обучается на приятных слуху изображениях музыки, а затем производит свои собственные на основе ключевых слов и текстовых подсказок, описывающих тип музыки или звука, который пользователь хочет услышать. После создания сонограммы инструмент преобразовывает ее в звук.
В 2023 году нейросетевые продукты получат дальнейшее развитие. Перспективным направлением станет расширение области восприятия. Возможность распознавать лица, изображения, отпечатки, голоса и звуки. Еще одним трендом станет внедрение в языковые нейросети знаний об окружающем мире при помощи "Википедии" и подобных источников. Это даст возможность во время оформления ответа применять не только информацию из обучающей выборки, но и прямо с фактологического источника.