Второй состав: актеров заменят ожившие фото Монро и Чаплина?

Некоторое время назад в интернете появились статьи о том, что "искусственный интеллект оживил Мону Лизу". Понятно, что это всего лишь заголовок, привлекающий клики пользователей, однако технология и в самом деле заслуживает внимания.

Фото: depositphotos/Syda_Productions

Инженеры компании Samsung, работающие в Центре искусственного интеллекта, построили систему, способную взять фотографию любого человека и превратить ее в реалистичное видео, на котором этот человек будет говорить, улыбаться и демонстрировать различные эмоции. Система состоит из трех нейросетей, каждая из которых выполняет собственную задачу.

Первая сеть называется FaceSpy, и ее специализация – точно выделять на неподвижном изображении глаза, нос, рот, брови, уши и прочие части лица. FaceSpy прошла обучение, тренируясь на тысячах изображений, которые загрузили в нее авторы.

Вторая нейросеть занята анимированием картинки: она выдает последовательность кадров, в которых голова человека двигается, губы имитируют речь, брови поднимаются и опускаются и так далее. Причем делается это не в хаотичном порядке, а также на основе тысяч видеороликов с живыми людьми.

Еще одна часть системы, нейросеть Discriminator, занимается анализом готового видео и следит за реалистичностью движений "ожившей фотографии".

В результате совместной работы всех частей системы получаются короткие ролики, на которых статичные изображения лиц превращаются в динамическое видео – фотографии говорят, моргают, дышат и так далее.

Разумеется, в качестве исходного изображения можно взять не только фото случайных людей, но и, например, фотографию любой знаменитости или даже картины.

Именно так инженеры и проиллюстрировали работу искусственного интеллекта: они "оживили" Альберта Эйнштейна, Сальвадора Дали, Мэрилин Монро и Мону Лизу.

Конечно, готовый результат не идеален. Во-первых, эти ролики без звука – имитировать аудиозапись речи система не умеет. И это даже хорошо, ведь если бы звук был, стал бы особенно заметным второй недостаток: анимированные картинки не произносят каких-то слов, они только имитируют речь: открывают и закрывают рот, двигают губами и так далее.

Фото: youtube.com/Egor Zakharov

Третий недостаток, как ни странно, – отсутствие реалистичности. При всем том объеме работы, который производит искусственный интеллект, человеческий мозг все равно замечает некоторую неестественность движений.

Мало того, в случае с Монро хорошо заметно, что мимика получилась чья-то чужая. У каждого человека есть собственные особенности мимики, связанные со строением костей и мышц лица, с их развитием в течение жизни и так далее. Существует множество фильмов с Монро, популярных до сих пор, и микромимика актрисы знакома многим. По этой причине ролик с "оживленной" фотографией Мэрилин выглядит самым неестественным. Наиболее реалистично выглядит, как ни странно, Мона Лиза – видимо, так происходит потому, что никто из ныне живущих людей не знает, как она на самом деле говорила.

Однако можно предположить, что все эти недостатки рано или поздно исправят. И мы получим максимально естественные кадры с участием людей, которые давно закончили свой земной путь или даже никогда не существовали. И вот здесь возникает интересная ситуация: наверняка первыми, кто начнет применять новую технологию, станут кинематографисты. Уже сейчас существует довольно много фильмов, в которых участвуют цифровые копии актеров. Пока они появляются на экране ненадолго, и их неестественность хорошо заметна.

Но технологии развиваются стремительно, и, вероятнее всего, в ближайшие 10–20 лет мы сможем увидеть новые фильмы, в которых "снимутся" Мэрилин Монро, Джеймс Дин или Чарли Чаплин.

С голосами звезд тоже проблем не возникнет: уже сегодня существуют алгоритмы, способные имитировать любой тембр и манеру речи. Их работу тоже нельзя назвать идеальной, но это только вопрос времени. Недавно, например, была построена нейросеть, способная по звуку голоса восстановить приблизительный облик человека, включая возраст и даже расовую принадлежность. Наверняка эту систему можно заставить работать в обратную сторону – синтезировать голос по фотографии.

Рано или поздно мы придем к тому, что изображение, созданное компьютером, будет невозможно отличить от съемки реального человека. И это принесет в нашу жизнь довольно странную коллизию: верить видеороликам будет нельзя. Не будет никакой гарантии, что вот этот человек, произносящий вот эти слова, не является результатом работы алгоритмов искусственного интеллекта.

На самом ли деле политик сделал важное заявление, а, может, это симуляция? Ограбил ли преступник магазин, или запись с камер наблюдения – подделка? Действительно ли известный певец ударил поклонника, или видео сгенерировал компьютер?

Совершенно непонятно, чему можно будет доверять через пару десятков лет. Текст, запись голоса, фотография, видеозапись, личная подпись, отпечатки пальцев – все это будет имитироваться так же легко, как сегодня мы делаем видеоселфи с кошачьими ушками и сердечками. Похоже, что человек ближайшего будущего не будет верить абсолютно никому. Даже самому себе. Хотя…

Гринько Николай

наука

Новости СМИ2

Новости

Второй состав: актеров заменят ожившие фото Монро и Чаплина?

Главное