脳インプラントとAI解釈で脳信号を音声に変換することができました

2018.11.30

投稿者 :Justin Brunnette

カテゴリ: IT News

Greetings! ジャスティンです。

色んな研究を見ると段々未来に入ってきてると感じてきますね。
元の記事は:
https://www.scientificamerican.com/article/with-brain-implants-scientists-aim-to-translate-thoughts-into-speech/

[日本語]

脳コンピュータインターフェース(BCI)業界の発展はかなり遅いですので、神経信号をコンピュータが理解する事の難しさの証明になっています。 しかし、この技術の必要性は、Space Xの社長、Elon Musk氏がよく知っていて、人工知能に負けないよう、人間の脳とAIを合体するべきだと注告しています。

 

コロンビア大学の研究チームはAIを使って脳インプラントから拾った脳の信号を識別し、人間の頭の中で考える言葉を分かる技術の基礎が作る事に成功しました。

 

コンセプトの証明はコロンビア大学のチームをリードしている電気工学者ニマ・メスガガニ氏(Nima Mesgarani)が行いました。研究は 5人のてんかん患者に、電極を外科的に脳に直接挿れました。 電極は "electrocorticography"と呼ばれたグリッド形式に並べられ、脳の2つの聴覚中枢に埋め込まれました横側頭回と上側頭回です)。 それらの脳領域は、イントネーション、音量、周波数、および音素などのスピーチを処理する場所です。

 

患者はまず数字を数えるのを聞いたり、他の人が読んだ30分の話を聞ました。 この間は脳が発話を認識していて、その神経活動をは電極に拾われます。

 

これに関して重要なことは、想像と実際に何かを経験するときは、人間の脳はほぼ同じ脳活動をしています。 例えば、リンゴを想像すると、実際にリンゴが見えるときと同じ脳の位置とシグナルの活動が始まります。

 

脳がスピーチを想起させるのと実際話してるときと同じ反応を起こします。 象(elephant)のような言葉を想像すると、脳は「ph」のアクセントをシミュレートするだけでなく、「t」の音を強調するなどのこともシミュレートします。 これらのサウンド作成機能は、神経パターンに反映されます。

 

神経活動を拾った研究者たちはその次は、ディープ·ニューラル·ネットワークを利用しました。 このプロセスは、インプラントが脳信号を電気信号と変換し、ニューラル·ネットワークに解釈されて信号からの音を推測します。 その後、信号は、周波数、イントネーションなどの電気信号の特徴から音を生成する装置であるボコーダに送られました。

 

実験の目的は、ボコーダーから出てくる音が、実際に言われていた言葉に似てるか確認することです。 結果的には、出てくる音は75%率が人間が考えてた音とおなじでした。 研究チームは、複数の測定値からの信号を平均することで実験の精度が上がることも発見しました。

 

実験成果の使い道は、音声障害を持つ人が流暢に話せるようになることです。 しかし、コンピュータの進歩により、音声障害を持つ人は言葉を発する必要も無く、コンピュータやAIの助けを借りて脳活動認識で会話が出来る未来が近づいています。

 

[English]

 

Researchers Have Begun to be Able to Translate Brain Signals into Speech with the Help of Brain Implants and AI Interpretation


The brain computer interface (BCI) industry has been pretty slow, revealing the sheer difficulty with the translating neural signals into something computers can understand. The necessity of such technology has been emphasized by Space X founder Elon Musk as a way of augmenting human intelligence to keep up with artificial intelligence.

 

The groundwork for the technology has been made as scientists at the University of Colombia have successfully utilized AI to identify brain signals picked up from implants that correspond to words we think in our head.

 

The proof of concept was conducted in a team from University of Colombia led by electrical engineer Nima Mesgarani. Five epilepsy patients volunteered where first required to surgically insert electrodes directly to the brain. The electrodes where in a grid format called “electrocorticography”, and were implanted to the two auditory centers of the brain: the Heschl’s gyrus and the superior temporal gyrus. Both regions of the brain are responsible for processing the speech such as intonation, volume, frequency, and phonemes.

 

The patients listened to people counting digits such as “one”, “two”, and “three” as well as 30 minute story read by others. This allowed the researchers to pick up the neural activity when the brains were recognizing speech.

 

A key thing to note is that the human brain has nearly identical brain activity when imagining something and actually experiencing something. So when we imagine a image of a apple, the same location and signal activity will fire up to when we actually see an apple.

 

This will mean the brain will make the same reaction to imagining speech or “covert” speech to actually speaking. When we imagine saying a word, such as “elephant”, the brain will simulate the emphasis on the “ph” sound as well as enunciate the “t” sound and so on. These features of creating sound will be reflected in the neural patterns.

 

The experimenters then utilized a deep neural network. The process would start with the implants would pick up the brain signal into electrical signal which were interpreted by the neural network to infer sounds from the signals. The signals were then sent to a vocoder, which is a device that would produce sounds from the the features in the electrical signals such as frequency, intonation etc.

 

The goal of the experiment was to see if the sounds coming out of the vocoder resembled the actual words that were being said. The result was a surprising success as 75% of the sounds coming out were intelligible to humans. The research team found that averaging the signals from multiple readings would increase the accuracy of the experiment.

 

The potential applications for the experiment would be to help those with speech disabilities be able to speak fluently. But with the advancement with computers with the ability to understand the language of human brain activity, the brain computer interface technology will become closer and closer to a reality. Just think, with this humans could interact directly with computers or AI assisted human cognition.