革新的な AI システムは、ビデオ、オーディオ、テキストで共有される概念を学習します

Computer Science and Artificial Intelligence Laboratory (CSAIL) の研究者は、ビデオ、オーディオ クリップ、画像などのさまざまなモダリティ間で共有される概念を機械が学習できる人工知能 (AI) 技術を開発しました。 AI システムは、たとえば、ビデオで泣いている赤ちゃんがオーディオ クリップで話されている「泣いている」という言葉に関連していることを学習し、この知識を使用してビデオ内のアクションを識別し、ラベル付けすることができます。 この手法は、ある形式 (ビデオなど) のデータを別の形式 (音声言語など) のクエリと照合する必要があるクロスモーダル検索タスクで、他の機械学習方法よりも優れたパフォーマンスを発揮します。 また、ユーザーはマシンの意思決定の背後にある理由を確認することもできます。 将来的には、この技術を使用して、ロボットが人間と同様の方法で知覚を通じて世界について学習できるようになる可能性があります。

機械学習モデルは、人間の助けを借りずに、ビデオ クリップ内のアクションを識別してラベルを付けることができます。

人間は、視覚、聴覚、言語の理解など、さまざまなモダリティの組み合わせを通じて世界を観察しています。 一方、機械は、アルゴリズムが処理できるデータを通じて世界を解釈します。

そのため、マシンが写真を「見る」場合、その写真を画像分類などのタスクを実行するために使用できるデータにエンコードする必要があります。 入力がビデオ、オーディオ クリップ、画像などの複数の形式である場合、このプロセスはより複雑になります。

ここでの主な課題は、機械がこれらの異なるモダリティをどのように調整できるかということです。 人間として、これは簡単です。 私たちは車を見て、車が通り過ぎる音を聞きますが、これらは同じものだと知っています。 しかし、機械学習の場合、それはそれほど簡単ではありません」と、コンピュータ サイエンスおよび人工知能研究所 (CSAIL) の大学院生であり、この問題に取り組む論文の筆頭著者である Alexander Liu は言います。

人工知能システム ビデオ オーディオ テキスト

MIT の研究者は、視覚と聴覚のモダリティ間で共有される概念を捉える方法でデータを表現することを学習する機械学習技術を開発しました。 彼らのモデルは、特定のアクションが動画のどこで行われているかを識別し、ラベルを付けることができます。 クレジット: 研究者の厚意による。 MITニュース編集

Liu と彼の共同研究者は、視覚と聴覚のモダリティ間で共有される概念を捉える方法でデータを表現することを学習する人工知能技術を開発しました。 たとえば、彼らの方法は、ビデオで泣いている赤ちゃんの行動が、オーディオ クリップで話されている「泣いている」という言葉に関連していることを学習できます。

この知識を使用して、彼らの機械学習モデルは、ビデオ内で特定のアクションが行われている場所を特定し、ラベルを付けることができます。

クロスモーダル検索タスクでは、音声言語などの別の形式で与えられたユーザーのクエリに一致するビデオなどのデータを見つけることを含む、他の機械学習方法よりも優れたパフォーマンスを発揮します。 彼らのモデルはまた、マシンが取得したビデオがクエリと一致するとマシンが考える理由をユーザーが簡単に理解できるようにします。

この技術は、人間と同じように、ロボットが知覚を通じて世界の概念を学習するのに役立つようになるかもしれません。

Liu と共同で、CSAIL ポスドクの SouYoung Jin も参加しています。 大学院生の Cheng-I Jeff Lai と Andrew Rouditchenko。 CSAIL の上級研究科学者である Aude Oliva は、次のように述べています。[{” attribute=””>MIT director of the MIT-IBM Watson AI Lab; and senior author James Glass, senior research scientist and head of the Spoken Language Systems Group in CSAIL. The research will be presented at the Annual Meeting of the Association for Computational Linguistics.

Learning representations

The researchers focus their work on representation learning, which is a form of machine learning that seeks to transform input data to make it easier to perform a task like classification or prediction.

The representation learning model takes raw data, such as videos and their corresponding text captions, and encodes them by extracting features, or observations about objects and actions in the video. Then it maps those data points in a grid, known as an embedding space. The model clusters similar data together as single points in the grid. Each of these data points, or vectors, is represented by an individual word.

For instance, a video clip of a person juggling might be mapped to a vector labeled “juggling.”

The researchers constrain the model so it can only use 1,000 words to label vectors. The model can decide which actions or concepts it wants to encode into a single vector, but it can only use 1,000 vectors. The model chooses the words it thinks best represent the data.

Rather than encoding data from different modalities onto separate grids, their method employs a shared embedding space where two modalities can be encoded together. This enables the model to learn the relationship between representations from two modalities, like video that shows a person juggling and an audio recording of someone saying “juggling.”

To help the system process data from multiple modalities, they designed an algorithm that guides the machine to encode similar concepts into the same vector.

“If there is a video about pigs, the model might assign the word ‘pig’ to one of the 1,000 vectors. Then if the model hears someone saying the word ‘pig’ in an audio clip, it should still use the same vector to encode that,” Liu explains.

A better retriever

They tested the model on cross-modal retrieval tasks using three datasets: a video-text dataset with video clips and text captions, a video-audio dataset with video clips and spoken audio captions, and an image-audio dataset with images and spoken audio captions.

For example, in the video-audio dataset, the model chose 1,000 words to represent the actions in the videos. Then, when the researchers fed it audio queries, the model tried to find the clip that best matched those spoken words.

“Just like a Google search, you type in some text and the machine tries to tell you the most relevant things you are searching for. Only we do this in the vector space,” Liu says.

Not only was their technique more likely to find better matches than the models they compared it to, it is also easier to understand.

Because the model could only use 1,000 total words to label vectors, a user can more see easily which words the machine used to conclude that the video and spoken words are similar. This could make the model easier to apply in real-world situations where it is vital that users understand how it makes decisions, Liu says.

The model still has some limitations they hope to address in future work. For one, their research focused on data from two modalities at a time, but in the real world humans encounter many data modalities simultaneously, Liu says.

“And we know 1,000 words works on this kind of dataset, but we don’t know if it can be generalized to a real-world problem,” he adds.

Plus, the images and videos in their datasets contained simple objects or straightforward actions; real-world data are much messier. They also want to determine how well their method scales up when there is a wider diversity of inputs.

Reference: “Cross-Modal Discrete Representation Learning” by Alexander H. Liu, SouYoung Jin, Cheng-I Jeff Lai, Andrew Rouditchenko, Aude Oliva and James Glass, 10 June 2021, Computer Science > Computer Vision and Pattern Recognition.
arXiv:2106.05438

This research was supported, in part, by the MIT-IBM Watson AI Lab and its member companies, Nexplore and Woodside, and by the MIT Lincoln Laboratory.

Leave a Comment

Your email address will not be published. Required fields are marked *