現実と区別がつかないほどのクオリティの動画、Deep Fake,が作れるAIが開発しました

2018.10.02

投稿者 :Justin Brunnette

カテゴリ: IT News

ウィズウェイのブログスターのジャスティンです。

機械学習の新しいスタイルが出てきました。ご覧になってください。
元の記事は:
https://arxiv.org/pdf/1808.05174.pdf

 


情報の武器化は特に新しい問題ではありませんが、最近アメリカのメディアでは、偽造情報が公表されています。 政治界の域外でも、人それぞれが日常で情報を有効か無効かを評価するのは、非常に大切なことです。これからは AIがメディアと融合されていきますので、だんだん難しくなっていくことでしょう。
 
昨年末にNvidiaが開発したAIは、画像レンダリングで天気や、昼夜を変えたり、夏の写真から雪を入れるように画像を変えることができました。 実際の写真とほとんど区別がつかないような結果が出せました。 現在、Carnigie Mellon University(カーネギーメロン大学)の研究者は、生成的な敵対的ネットワークまたはGAN(generative adversarial networks)と呼ばれる新しい機械学習方法を開発し、イメージへの動きを説得できるアルゴリズムを開発しました。
 
GANと呼ばれるアルゴリズムのクラスは、「弁別」モデルと「発生」の2つのモデルで構成されています。 市場の他の機械学習モデルと似て、発生モデルはイメージを作成し、弁別はそれをテストします。

弁別モデルは例えば、オバマ大統領のスピーチパターンの細かい動きを学びます。スピーチパターンとは特定の単語の後に頭がどのように変化するかや、特定の単語の後のスピーチのペースや、 会話の形のことです。 発生モデルは、弁別モデルが認可するイメージのスタイルを学習します。 弁別モデルはその画像をテストし、発生モデルの有効性を評価します。
 
GANモデルは、あるイメージを別のイメージから変換するために作られています。 例えばオバマ大統領が話してる映像をトランプ大統領が話している映像へと変換しました。 GANモデルの利点は、単一の画像からの画像の次の軌跡または動きを予測できることです。 GANモデルは人間が監督されていないモデルなので、アルゴリズムの手作業で較正は必要なく、結果を迅速に改善して、独自の新しいプロセスを学習できる自己修正モデルなのです。
 
結果は研究者は人々の映像を好きなようになんでも話させることができます。 結果の一つはオバマ大統領の映像を、コメディアンのジョーダン・ピール氏(Jordan Peele)が話している映像を元に生成しました。
動画はYouTubeのリンクに掲載されています。
https://youtu.be/cQ54GDm1eL0
 
このモデルは、映画業界で使用道はあると思います。たとえば現実的ではないCGIをGANモデルから換えるとかです。 しかし、アルゴリズムはこれから更に改善されていくので、このタイプのモデルでは、より多くの映像が改ざんされる可能性が非常に高いです。 「偽のニュース」の時代には、犠牲情報操作の増加になり、技術の能力をよりよく知ることが常に大切だと思います。

[English]

New Advancement from Machine Learning has developed DeepFakes, Videos Approaching Indistinguishable from Real Life

 

Falsified information has become very publicized in the American media as of recently though the weaponization of information is not a particularly new issue. Even outside of the realm of politics, it is a great concern for individuals to be able to evaluate information and apply critical thinking to what is valid and invalid information. This is no doubt going to become more difficult as AI is being applied to synthesize media.

 

We have seen some innovation as Nvidia at the end of last year presented their results of AI image rendering by changing images to have different weather, change day to night or making a scene to include snow from summer photographs; results that appear nearly indistinguishable from real photos. Now researchers at Carnigie Mellon University have developed a new method called generative adversarial networks or GAN to synthesize movement to images to a convincing degree.

 

The researchers have employed a class of algorithms called GAN, which are comprised of two models, a “discriminator” model and a “generator”. Much like the other machine learning models that we see out in the market, the “generator” model will make images while the “discriminator” will in a sense test their results.

 

The discriminator model will be taught, lets say, how President Obama’s speech patterns very closely, learning the small details like how his head shifts after certain words, pace of his speech after specific words or how his hand gestures are used during the pace of a conversation. The generator model will then learn the style of images that will trick the discriminator model. The discriminator model will test the images, and scores the effectiveness of the generator model.

 

The GAN model is used to translate one image from another. The researchers had for example, rendered footage of President Obama speaking from footage of President Trump. The advantage of the GAN models is that is is able to predict the next trajectories or movements of an image from only a single image. The GAN model is also an unsupervised model meaning that there is no manual alignment of the algorithm but rather a self correcting model in which it can quickly improve the results and learn new processes on its own.

 

The result is that the researchers can make a footage of people say anything they like. Some possibilities are like the footage of President Obama saying words recorded by comedian Jordan Peele seen in the youtube link below:

https://youtu.be/cQ54GDm1eL0

 

This model has much potential in the realm of movie production such as replacing distinguishably unrealistic CGI with a more realistic rendering from the GAN model. But since the algorithm is only going to improve from here, it is very well in the realm of possibilities that more and more video footage is able to be falsified by this type of model. In the era of “Fake News”, with the rise in information manipulation, it is always better to have more awareness of the abilities of technology.