機械学習では、合成データによって実際のパフォーマンスが向上します。 MITニュース

人間の行動を機械に認識させることには、建設現場で転倒した労働者を自動的に検出したり、スマート ホーム ロボットがユーザーのジェスチャーを解釈できるようにしたりするなど、多くの潜在的な用途があります。

これを行うために、研究者は、人間がアクションを実行している様子を示すビデオ クリップの膨大なデータセットを使用して、機械学習モデルをトレーニングします。 ただし、数百万または数十億のビデオを収集してラベル付けするのは費用と労力がかかるだけでなく、クリップには人の顔やナンバー プレート番号などの機密情報が含まれていることがよくあります。 これらのビデオを使用すると、著作権法またはデータ保護法にも違反する可能性があります。 これは、ビデオ データがそもそも公開されていることを前提としています。多くのデータセットは企業が所有しており、自由に使用することはできません。

そのため、研究者は合成データセットに変わりつつあります。 これらは、シーン、オブジェクト、および人間の 3D モデルを使用するコンピューターによって作成され、実際のデータに伴う潜在的な著作権の問題や倫理的な懸念なしに、特定のアクションのさまざまなクリップをすばやく生成します。

しかし、合成データは実際のデータと同じくらい「良い」のでしょうか? これらのデータでトレーニングされたモデルは、実際の人間の行動を分類するよう求められたときに、どの程度うまく機能するでしょうか? MIT、MIT-IBM ワトソン AI ラボ、ボストン大学の研究者チームは、この疑問に答えようとしました。 彼らは、幅広い人間の行動を捉えた 150,000 のビデオ クリップの合成データセットを構築し、それを使用して機械学習モデルをトレーニングしました。 次に、これらのモデルに実世界のビデオの 6 つのデータセットを見せて、それらのクリップのアクションをどれだけうまく認識できるかを確認しました。

研究者は、合成的にトレーニングされたモデルが、背景オブジェクトが少ないビデオの実際のデータでトレーニングされたモデルよりも優れたパフォーマンスを発揮することを発見しました。

この作業は、モデルが現実世界のタスクでより高い精度を達成するような方法で、研究者が合成データセットを使用するのに役立つ可能性があります。 また、実際のデータセットを使用する際の倫理、プライバシー、著作権に関する懸念を軽減するために、科学者が合成データを使用したトレーニングに最適な機械学習アプリケーションを特定するのにも役立ちます。

「私たちの研究の最終的な目標は、実際のデータの事前トレーニングを合成データの事前トレーニングに置き換えることです。 合成データでアクションを作成するにはコストがかかりますが、それが完了すると、ポーズや照明などを変更することで、無制限の数の画像またはビデオを生成できます。 これが合成データの優れた点です」と、MIT-IBM ワトソン AI ラボの主任科学者兼マネージャーであり、この研究を詳述した論文の共著者でもある Rogerio Feris は述べています。

この論文は、筆頭著者の Yo-whan “John” Kim ’22 によって執筆されています。 Aude Oliva 氏は、MIT シュワルツマン カレッジ オブ コンピューティングの戦略的産業関与担当ディレクター、MIT-IBM ワトソン AI ラボの MIT ディレクター、コンピューター サイエンスおよび人工知能研究所 (CSAIL) の上級研究科学者です。 他に7人。 この研究は、神経情報処理システム会議で発表されます。

合成データセットの構築

研究者は、人間の行動をキャプチャした合成ビデオ クリップの 3 つの公開データセットを使用して、新しいデータセットをコンパイルすることから始めました。 彼らのデータセットは、Synthetic Action Pre-training and Transfer (SynAPT) と呼ばれ、150 のアクション カテゴリと、カテゴリごとに 1,000 のビデオ クリップが含まれていました。

彼らは、クリーンなビデオ データを含むクリップの入手可能性に応じて、人が手を振ったり、床に倒れたりするなど、できるだけ多くのアクション カテゴリを選択しました。

データセットが準備できたら、それを使用して 3 つの機械学習モデルを事前トレーニングし、アクションを認識させました。 事前トレーニングには、あるタスクのモデルをトレーニングして、他のタスクを学習するための有利なスタートを与えることが含まれます。 人々の学習方法 (何か新しいことを学ぶときに古い知識を再利用する) に触発されて、事前トレーニング済みのモデルは、既に学習したパラメーターを使用して、新しいデータセットで新しいタスクをより迅速かつ効果的に学習できるようにします。

彼らは、実際のビデオ クリップの 6 つのデータセットを使用して事前トレーニング済みのモデルをテストし、それぞれがトレーニング データ内のものとは異なるアクションのクラスをキャプチャしました。

研究者たちは、3 つの合成モデルすべてが、6 つのデータセットのうち 4 つのデータセットで実際のビデオ クリップでトレーニングされたモデルよりも優れていることを見て驚きました。 その精度は、「シーン オブジェクト バイアスが低い」ビデオ クリップを含むデータセットで最高でした。

シーン オブジェクト バイアスが低いということは、モデルがシーン内の背景や他のオブジェクトを見てアクションを認識できないことを意味します。つまり、モデルはアクション自体に集中する必要があります。 たとえば、モデルがプールに飛び込む人々のビデオ クリップでダイビング ポーズを分類するタスクを課されている場合、水や壁のタイルを見てポーズを識別することはできません。 アクションを分類するには、人の動きと位置に焦点を当てる必要があります。

「シーンとオブジェクトのバイアスが低いビデオでは、アクションの時間的ダイナミクスがオブジェクトや背景の外観よりも重要であり、それは合成データでうまくキャプチャされているようです」と Feris は言います。

「シーン オブジェクト バイアスが高いと、実際には障害となる可能性があります。 モデルは、アクション自体ではなく、オブジェクトを見てアクションを誤分類する可能性があります。 モデルを混乱させる可能性があります」と Kim は説明します。

パフォーマンスの向上

これらの結果を基に、研究者は今後の作業でより多くのアクション クラスと追加の合成ビデオ プラットフォームを含めたいと考えており、最終的には合成データを使用して事前トレーニングされたモデルのカタログを作成すると、共著者で MIT の研究スタッフ メンバーである Rameswar Panda は述べています。 -IBM ワトソン AI ラボ。

「文献にある既存のモデルと非常に類似したパフォーマンス、またはそれよりも優れたパフォーマンスを持つモデルを構築したいと考えていますが、これらのバイアスやセキュリティ上の懸念に縛られることはありません」と彼は付け加えます。

彼らはまた、モデルのパフォーマンスを向上させる可能性のある、より正確でリアルな合成ビデオを生成しようとする研究と自分たちの研究を組み合わせたいと考えている、と共著者であり CSAIL のポスドクである SouYoung Jin は述べています。 彼女はまた、合成データでトレーニングされたモデルがどのように異なる方法で学習するかを探ることにも興味を持っています。

「私たちは合成データセットを使用してプライバシーの問題や文脈的または社会的偏見を防ぎますが、モデルは実際に何を学習するのでしょうか? それは偏りのない何かを学びますか?」 彼女が言います。

合成ビデオのこの潜在的な用途を実証した今、彼らは他の研究者が彼らの研究に基づいて構築することを望んでいます.

「十分に注釈が付けられた合成データを取得するためのコストが低いにもかかわらず、現在、実際のビデオを含む最大の注釈付きデータセットに匹敵する規模のデータセットはありません。 実際のビデオでさまざまなコストと懸念事項について議論し、合成データの有効性を示すことで、この方向への取り組みを促進したいと考えています」と、ボストン大学 (BU) の大学院生で共著者の Samarth Mishra 氏は付け加えています。

その他の共著者には、ドイツのゲーテ大学のコンピューター サイエンス教授であり、MIT-IBM ワトソン AI ラボの提携教授である Hilde Kuehne が含まれます。 Leonid Karlinsky、MIT-IBM ワトソン AI ラボの研究スタッフ メンバー。 Venkatesh Saligrama、BU の電気およびコンピューター工学科の教授。 Kate Saenko は、BU のコンピューター サイエンス学部の准教授であり、MIT-IBM Watson AI Lab のコンサルティング教授です。

この研究は、国防高等研究計画局 LwLL、MIT-IBM ワトソン AI ラボ、およびそのメンバー企業である Nexplore と Woodside によって支援されました。

.

Leave a Comment

Your email address will not be published. Required fields are marked *