И как роботы будут писать рассказы по изображениям?

Модель: любовные романы «О да, он был готов вырвать свадебный торт у нее из рук. У нее не было желания сказать ему, что он сделал с ней. Она глубоко вздохнула и посмотрела назад, на Джеймса, который занимался любовью со своей невестой. Сердце женщины зашлось в восторге, даже если она не смогла подобрать нужных слов. Особенно сейчас цена, что они заплатили за возможность пожениться, была ужасной»
Модель: любовные романы
«О да, он был готов вырвать свадебный торт у нее из рук. У нее не было желания сказать ему, что он сделал с ней. Она глубоко вздохнула и посмотрела назад, на Джеймса, который занимался любовью со своей невестой.
Сердце женщины зашлось в восторге, даже если она не смогла подобрать нужных слов. Особенно сейчас цена, что они заплатили за возможность пожениться, была ужасной»

Перевод статьи «Generating Stories about Images», опубликованной на Medium.com.

Перевела текст для Best app Алина Лютц, студент магистратуры по мультимедийной журналистике факультета коммуникаций, медиа и дизайна НИУ ВШЭ.

искусственные нейронные сети использовали для генерации рассказов на основе картинок

Повествование – это один из базовых инструментов человека для коммуникации друг с другом. Описание фото или создание некоего рассказа на его основе – занятие трудное, вызывающее определенное мысленное напряжение. Новые эксперименты в области Machine Learning позволят искусственному интеллекту приблизиться к процессу самостоятельного творчества. Теперь компьютер сможет автоматически генерировать истории на основе содержания изображений. Результаты исследования показывают возможности машины создавать небольшие романтические истории по картинкам.

Приглашенная звезда в эксперименте: Тейлор Свифт ☺

Neural-storyteller (нейронный рассказчик) — так называется недавно опубликованный результат эксперимента Райана Кайроса из Торонтского университета. В его основе комбинация технологий реккурентных нейронных связей (RNN), алгоритма раcпознавания речевых фраз skip-thoughts vectors и других инструментов, с помощью которых можно создать небольшие уникальные истории по картинкам. Результаты этого «нейронного сторителлинга» получились творческими и не без юмора. Посмотреть оригинал исследования можно здесь.

Эксперимент: роботы пишут истории

Опыты начались с запуска анализа 5 тыс. случайно выбранных картинок из интернета, а также экспериментирования с гиперпараметрами этих изображений. Программа имела две заранее отработанных модели: одна была «обучена» с помощью 14 млн отрывков из любовных романов, другая «практиковалась» на текстах песен Тейлор Свифт. Входящие и выходящие данные фильтровались вручную, а после были объединены в два отчетных видео.

«Генератор Тейлор Свифт». В «модели Тейлор Свифт» истории звучат в сочетании с хорошо известной инструментальной мелодией из песен певицы.

«Генератор романтики». В «модели любовных романов» голоса генерируются при помощи синтезаторов речи.

Примеры сгенерированных роботом историй к изображениям:

Роботы_ нейронный рассказчик
Модель генерирования истории: песни Тейлор Свифт
«Я отдаю тебе человека.
Я не знаю, что происходит со мной,
Но когда я оглядываюсь обратно на сцену,
Я говорю: “О, Боже, я люблю тебя больше, чем следует”»
Модель: любовные романы «Белое с белым не давали вспышек эмоций, и я мог только представить, что значит “вылететь из головы”. Через несколько дней после того, как это фото было сделано, она открылась ему, словно он был самым красивым созданием на земле. Я никогда не видел Габриэля раньше и не знал, что он собирался в Нью-Йорк. Я чувствовал, как холодный ветер раздувает мои волосы и бьет ими по лицу, давая мне странное чувство удовлетворения. В этом мы были так похожи. Она щелкнула радио, и я ожидал увидеть тысячи старых и безжизненных лет»
Модель генерирования истории: любовные романы
«Белое с белым не давали вспышек эмоций, и я мог только представить, что значит “вылететь из головы”. Через несколько дней после того, как это фото было сделано, она открылась ему, словно он был самым красивым созданием на земле.
Я никогда не видел Габриэля раньше и не знал, что он собирался в Нью-Йорк. Я чувствовал, как холодный ветер раздувает мои волосы и бьет ими по лицу, давая мне странное чувство удовлетворения. В этом мы были так похожи. Она щелкнула радио, и я ожидал увидеть тысячи старых и безжизненных лет»

От Best app: В чем люди пока точно выигрывают у роботов — это в том, что могут понять какую эмоцию изображение вызовет у человека, могут различить, где картинка веселая, а где на ней изображено страшное. Робот не увидел во второй картинке трагедию (несмотря на то, что изображение — монтаж, в оригинале на фотографии американского фотографа Джо Розенталя вместо человека висит американский флаг. Фотография «Поднятие флага на Иводзиме» после окончания Второй мировой войны получила Пулитцеровскую премию. В Японии ее часто используют для монтажа фотожаб). Поэтому и подпись мягко говоря выглядит неудачной. 

Как это работает?

  1. Искусственные нейронные сети (RNN) «обучаются» при помощи любовных романов.
  2. Каждый отрывок романа отображается с помощью алгоритма skip-thought vector.
  3. Создается закодированный отрывок новой истории благодаря применению RNN и skip-thought vector к изображению.
  4. Визуально-смысловая связь между COCO картинками и подписями к ним раскодируется. Подписи и картинки отображаются в едином векторном пространстве.
  5. После обучения вставляются новые изображения, а сгенерированные титры извлекаются.

Подборка получившихся историй

Фотографии кликабельны. Сгенерированные роботом истории читать при клике на изображение. И пусть с фотографией с повешенным робот ошибся, но другие истории вполне соотвествуют изображениям. Под каждой фотографией написано какая модель генерации истории была для нее использована.

Эксперимент «Нейронный рассказчик» дает нам уникальную возможность заглянуть в будущее повествования, даже если сейчас эти технологии не являются полностью зрелыми. Само искусство сторителлинга основано на постоянных изменениях. В скором будущем авторы смогут обучать собственные модели, сочетая стили и жанры, генерируя текст с изображением и звуком.

И как роботы будут писать рассказы по изображениям?