DeepMindのAIは、一つの画像から全体の風景を再作成できました

2018.06.18

投稿者 :ブルーネット・ジャスティン

カテゴリ: IT News

ハローハロー、ジャスティンです。
AIにさらに開発が出てきました。
元記事は下記です:
https://deepmind.com/blog/neural-scene-representation-and-rendering/
[日本語]


DeepMindのAIは、一つの画像から全体の風景を再作成できました


最近、画像レンダリングの開発は驚異的です。ちょうど昨年、Nvidiaのニューラル・ネットワーク研究は、写真に雪や雨を加えるなどの写真的な操作を生成することができました。ニューラルネットワークは今まで非常に限定された形態のAIでありましたが、強い予測能力を開発することができています。先週、Googleの子会社であるDeepMindは、ニューラルネットワークが単一の画像からシーンのさまざまな視点を作成できることを発表しました。
 
画像の1つの視点にある色んな物体のサイズとシェーディングのデーターを入力すると、このAIは完全な3Dレンダリングを吐き出して、関連するオブジェクトの場所を予測や推定ができます。以前の研究では、ニューラルネットワークは、物体または様々な深度にラベルを有する風景の画像を必要としていました。通常の場合は人間のプログラマが数百万の画像にラベル付けるのを必要となります。しかし、DeepMindはこの方法を回避することができ、Generative Query Network(GNQ)と呼ばれる方法でニューラルネットワークを訓練しました。
 
GQNモデルは2つのネットワークで構成されています:表現ネットワークと生成ネットワークです。表現ネットワークは、ある視点から風景を予測するよりも、シーンおよび生成ネットワークの様々な視点を与えられます。表現ネットワークは風景のイメージをどんどん蓄積するので、生成ネットワークのオブジェクト・アイデンティティ、位置、色および領域レイアウトなどのすべての情報を生成します。
 
GQNモデルは本質的に、受信したピクセルからこの情報を抽出する方法自体を学習しています。このデータの収集では、典型的な空の色や特定のオブジェクトの対称性などの統計パターンを記録します。統計的パターン認識を可能にすることによって、シーンのより抽象的な詳細のための能力の一部を開きます。
 
DeepMindの研究者は、「幼児や動物のように、GQNは周囲の世界の観測を理解することによって学ぶ」と述べています。GQNは、観察されず予測できない新しいシーンを本質的に想像しやオブジェクトが他の側から見えるようになりました。空間的な関係を理解することで、仮想ロボットの腕を制御し、ボールを移動させたり、自己修正することができます。
 
このモデルはコンピュータ生成の風景でしか訓練されていないため、このモデルにはまだ限界があります。 DeepMindは、このテクニックを実際のシーンや写真にまで拡大できることを期待しています。この種の場面理解は、空間的および時間的な質問の物理学的研究ならびに仮想的で拡張された現実の開発に多大な貢献をするかもしれません。
 
好奇心を持っている人のために、彼らの実験で使用されたデータセットはGithubを介して公開されています:https://github.com/deepmind/gqn-datasets
[English]

DeepMind’s AI Can Recreate Entire Landscapes From Single Pictures

The breakthroughs in image rendering recently has been extraordinary. Just last year, Nvidia’s neural network research was able to generate photorealistic manipulations such as adding snow or rain to photographs.  Although neural networks are still a very limited form of AI, it has proven to develop effective predictive capabilities. Last week Google’s subsidiary, DeepMind, has published that their neural networks are able to create various viewpoints of a scene just from a single image.
 
When fed an image of a single vantage point that contains objects of various sizes and shading, their AI can spit out a full 3D rendering making predictions and estimations on where related objects should stand in the picture. In previous iterations of this research, neural networks were needed pictures of scenes to have labels for objects or various depths. These required millions of images usually each hand labeled by human programmers. But DeepMind has able to circumvent this method and has trained their neural network in a method called the Generative Query Network (GNQ).
 
The GQN model is made up of two networks; a representation network and a generation network. The representation network is fed various perspectives of a scene and the generative network than predicts the scene from a queried perspective. As the representation network accumulates more and more images of a scene, it produces all information such as object identities, positions, colors and area layout for the generative network.
 
GQN model is essentially learning by itself how to extract this information from the pixels it receives. With this collection of data, it notes any statistical patterns such as typical colors of the sky or symmetries of certain objects. By allowing for statistical pattern recognition, it opens some of it capacity for more abstract details of a scene.
 
DeepMind’s researcher describes, “Much like infants and animals, the GQN learns by trying to make sense of its observations of the world around it.” The GQN has is essentially able to ‘imagine’ new scenes that have not been observed and able to predict what objects would look like from the other side. The understanding of spatial relationships allow it to control a virtual robot arm and move a ball around and even self-correct.
 
There are still limitations to this model as it has only been trained in computer generated scenery. DeepMind hopes to be able to expand upon this technique to real life scenes or photographs. This sort of scene understanding may contribute much to physics research in space and time querying as well as in virtual and augmented reality development.  
 
For those who are curious, the datasets used in their experiments are publically available via Github: https://github.com/deepmind/gqn-datasets