AI が適切な量の好奇心で機能することを保証する | MITニュース

それは昔からのジレンマです。 金曜日の夜が明けて、あなたは夕食のレストランを選ぼうとしています。 より優れたものを発見することを期待して、最も愛されている水飲み場を訪れたり、新しい施設を試したりする必要がありますか? 可能性はありますが、その好奇心にはリスクが伴います。新しいオプションを検討すると、食べ物が悪化する可能性があります。 反対に、うまくいくとわかっていることに固執すれば、狭い道から抜け出すことはできません。

好奇心は人工知能を駆り立てて世界を探索し、自律ナビゲーション、ロボットによる意思決定、健康状態の最適化など、無限のユース ケースが生まれています。 場合によっては、マシンは「強化学習」を使用して目標を達成します。この場合、AI エージェントは、良い行動に対して報酬を与えられ、悪い行動に対して罰せられることから繰り返し学習します。 レストランを選択する際に人間が直面するジレンマと同様に、これらのエージェントも、より良い行動を発見するのに費やす時間 (探索) と、過去に高い報酬につながった行動をとるのに費やす時間 (搾取) のバランスをとるのに苦労しました。 好奇心が多すぎると、エージェントは適切な決定を下すことができなくなります。また、好奇心が少なすぎると、エージェントが適切な決定を決して見つけられないことを意味します。

適切な量​​の好奇心を備えた AI エージェントを作成することを追求する中で、MIT の Improbable AI Laboratory と Computer Science and Artificial Intelligence Laboratory (CSAIL) の研究者は、AI があまりにも「好奇心旺盛」であることに気を取られてしまうという問題を克服するアルゴリズムを作成しました。与えられたタスク。 彼らのアルゴリズムは、必要に応じて好奇心を自動的に高め、エージェントが何をすべきかを知るために環境から十分な監督を受けると、それを抑制します。

60 以上のビデオ ゲームでテストしたところ、このアルゴリズムは、以前のアルゴリズムでは難しいまたは簡単なドメインのみにしか取り組むことができなかった、難しい探索タスクと簡単な探索タスクの両方で成功することができました。 この方法では、AI エージェントはインセンティブを最大化する意思決定ルールを学習するために使用するデータが少なくなります。

「探索と搾取のトレードオフをうまくマスターすれば、適切な意思決定ルールをより早く学ぶことができます。それ以下のものは大量のデータを必要とし、最適ではない治療、ウェブサイトの利益の減少、およびそうでないロボットを意味する可能性があります。」 MIT の電気工学およびコンピューター サイエンス (EECS) の助教授であり、Improbable AI Lab の所長であり、この研究を監督した CSAIL の関連会社である Pulkit Agrawal は言います。 「売上を最大化するコンテンツのデザインやレイアウトを見つけようとしているウェブサイトを想像してみてください。 探索と活用をうまく実行しないと、適切な Web サイト デザインまたは適切な Web サイト レイアウトに収束するのに長い時間がかかり、利益の損失を意味します。 または、Covid-19 のような医療環境では、患者を治療するために一連の決定を行う必要がある場合があります。意思決定アルゴリズムを使用する場合、患者は迅速かつ効率的に学習する必要があります。多数の患者を治療する場合、次善のソリューションは必要ありません。 この研究がその性質の現実世界の問題に適用されることを願っています。」

好奇心の心理的基盤のニュアンスを網羅するのは困難です。 挑戦を求める行動の根底にある神経相関は、よく理解されていない現象です。 行動を分類する試みは、私たちの衝動、剥奪に対する感受性、社会的およびストレス耐性を深く研究する研究にまたがっています。

強化学習では、このプロセスは感情的に「刈り込まれ」、骨組みまで削ぎ落とされますが、技術的な面では複雑です。 基本的に、エージェントは、さまざまなことを試すのに十分な監督がない場合にのみ好奇心を持つべきであり、監督がある場合は、好奇心を調整して下げる必要があります。

ゲームの大部分は、報酬を探して幻想的な環境を走り回り、何らかの目標を達成するために長い一連のアクションを実行する小さなエージェントであるため、研究者のアルゴリズムの論理的なテストベッドのように見えました. 実験では、研究者は「マリオカート」や「モンテズマのリベンジ」などのゲームを 2 つの異なるバケットに分けました。1 つは監視がまばらで、エージェントのガイダンスが少なく、「難しい」探索ゲームと見なされ、もう 1 つは監視が多いゲームです。密な、または「簡単な」探索ゲーム。

たとえば、「マリオカート」で、すべての報酬を削除するだけで、いつ敵に倒されるかわからないとします。 コインを集めたり、パイプを飛び越えたりしても、報酬はありません。 エージェントは、それがどれだけうまくいったかを最後に知らされるだけです。 これはまばらな監視の場合です。 好奇心を刺激するアルゴリズムは、このシナリオで非常にうまく機能します。

しかし今、エージェントが綿密な監視を提供されているとします。これは、パイプを飛び越え、コインを集め、敵を排除することに対する報酬です。 ここでは、好奇心のないアルゴリズムは、頻繁に報われるため、非常にうまく機能します。 しかし、代わりに好奇心も利用するアルゴリズムを採用すると、学習が遅くなります。 これは、好奇心旺盛なエージェントがさまざまな方法で速く走ろうとしたり、ダンスをしたり、ゲーム画面のあらゆる部分に移動したりしようとする可能性があるためです。これらは興味深いものですが、エージェントがゲームで成功するのには役立ちません。 しかし、チームのアルゴリズムは、環境に関係なく、一貫して優れたパフォーマンスを発揮しました。

今後の研究では、何年もの間心理学者を喜ばせ、悩ませてきた探求に戻ることが必要になるかもしれません。それは、好奇心の適切な測定基準です。好奇心を数学的に定義する正しい方法を本当に知っている人は誰もいません。

「新しい問題で一貫して優れたパフォーマンスを達成することは非常に困難です。そのため、探索アルゴリズムを改善することで、関心のある問題に合わせてアルゴリズムを調整する労力を節約できます」と、EECS 博士課程の学生であり、CSAIL のアフィリエイトである Zhang-Wei Hong 氏は述べています。 -Eric Chen ’20、MEng ’21 とともに主任著者が、この作業に関する新しい論文を発表しました。 「非常に困難な問題を解決するには好奇心が必要ですが、問題によってはパフォーマンスが低下する可能性があります。 探索と活用のバランスを調整する負担を取り除くアルゴリズムを提案します。 たとえば、以前は問題を解決するのに 1 週​​間もかかっていましたが、この新しいアルゴリズムでは、数時間で満足のいく結果を得ることができます。」

「現在の AI と認知科学の最大の課題の 1 つは、搾取と搾取、つまり情報の検索と報酬の検索のバランスを取る方法です。 子供たちはこれをシームレスに実行しますが、計算処理は困難です」と、カリフォルニア大学バークレー校の心理学教授で哲学の准教授でもあるアリソン・ゴプニク氏は述べていますが、彼はこのプロジェクトには関与していません。 「この論文は、これを自動的に達成するために印象的な新しい技術を使用しており、世界への好奇心と報酬への欲求を体系的にバランスさせることができるエージェントを設計しています。 [thus taking] AI エージェントを (ほぼ) 子供のように賢くするためのもう 1 つのステップです。」

「好奇心のような内在的な報酬は、エージェントが有用なさまざまな行動を発見するように導くための基本ですが、これは与えられたタスクでうまくやることを犠牲にするべきではありません. これは AI における重要な問題であり、この論文はそのトレードオフのバランスをとる方法を提供します」と、カーネギー メロン大学の助教授である Deepak Pathak 氏は付け加えます。 「そのような方法が、ゲームを超えて現実世界のロボット エージェントにどのように拡大するかを見るのは興味深いことです。」

Chen、Hong、および Agrawal は、アールト大学の助教授であり、ダルムシュタット工科大学のインテリジェント自律システム グループの研究リーダーである Joni Pajarinen と共に論文を執筆しました。 この研究は、MIT-IBM ワトソン AI ラボ、DARPA マシン コモン センス プログラム、米国空軍研究所による陸軍研究局、および米国空軍人工知能アクセラレーターによって部分的に支援されました。 この論文は、Neural Information and Processing Systems (NeurIPS) 2022 で発表されます。

.

Leave a Comment

Your email address will not be published. Required fields are marked *