AI は人間の臨床医よりも優れているでしょうか?

さまざまな研究グループが、過去 10 年間のほぼ半分の間、AI ドクターのアイデアをほのめかしてきました。 12 月下旬、Google と DeepMind のコンピュータ サイエンティストは、PaLM と呼ばれる大規模な言語モデルを使用して、症状に基づいて患者の病状を診断できる AI 臨床医のバージョンを発表しました。

グループが発行したプレプリントの論文によると、彼らのモデルは、米国の医療免許試験の問題を含むベンチマーク テストで 67.6% のスコアを獲得し、以前の最先端のソフトウェアを 17% 上回ったと主張しています。 その 1 つのバージョンは、人間の臨床医と同様のレベルで実行されました。 ただし、このアルゴリズムには多くの注意事項があり、それを好む人もいます。

モデルに関するいくつかの簡単な事実を次に示します。このモデルは、一般的に検索される 3,000 を超える医学的質問のデータセットと、医学的検査や医学研究文献を含む、医学的質問と回答のための 6 つの既存のオープン データセットでトレーニングされました。 テスト段階で、研究者は 2 つのバージョンの AI から人間の臨床医への応答を比較し、これらの応答の正確性、事実性、関連性、有用性、現在の科学的コンセンサスとの一貫性、安全性、バイアスを評価しました。

Adriana Porter Felt は、Google Chrome で作業するソフトウェア エンジニアであり、論文の一部ではありませんでしたが、次のように述べています。 ツイッター 人間の臨床医と同じように医学的質問に答えたモデルのバージョンは、「面倒でスケーリングしない人間のプロセスである指示プロンプトの調整」の追加機能を説明しています。 これには、AI が正しい情報を取得できるように、特定の方法で質問の文言を慎重に微調整することが含まれます。

[Related: Google is launching major updates to how it serves health info]

研究者たちは論文の中で、彼らのモデルは「有望に機能するが、依然として臨床医より劣っている」、そしてモデルの「理解力」についてさえ書いている. [of medical context]、知識の想起、および医学的推論は、モデルの規模と指示の迅速な調整によって改善されます。」 たとえば、AI のすべてのバージョンは重要な情報を見逃しており、人間と比較して高い割合で回答に不正確または不適切なコンテンツを含めていました。

言語モデルは、より複雑で大量の情報を解析する能力が向上しています。 そして、彼らは科学的知識と推論を必要とするタスクを問題なくこなすようです。 SciBERT や PubMedBERT などのいくつかの小さなモデルは、言語モデルの境界を押し広げて、専門用語や専門用語が満載のテキストを理解できるようにしました。

しかし、生物医学および科学の分野では、複雑な要因が絡み合っており、未知のことがたくさんあります。 また、AI が間違っている場合、不正行為の責任は誰が負うのでしょうか? アルゴリズムの多くがブラック ボックスのように機能している場合、エラーの原因を突き止めることができますか? さらに、これらのアルゴリズム (プログラマーによってコンピューターに与えられる数学的な指示) は不完全であり、完全で正確なトレーニング データが必要です。これは、さまざまな人口統計のさまざまな条件で常に利用できるとは限りません。 さらに、健康データの購入と整理には費用がかかる場合があります。

多肢選択式の標準化されたテストで質問に正しく答えるだけでは、知性は伝わりません。 また、実際の臨床例が提示された場合、コンピューターの分析能力は不十分になる可能性があります。 したがって、これらのテストは紙の上では見事に見えますが、これらの AI のほとんどは展開する準備ができていません。 IBM の Watson AI ヘルス プロジェクトについて考えてみましょう。 数百万ドルの投資があったとしても、依然として多くの問題があり、実用性や柔軟性が十分ではありませんでした (最終的に内破し、部品として売却されました)。

Google と DeepMind は、この技術の限界を認識しています。 彼らはその論文で、このモデルが実際に有用であるためには、開発と改善が必要な領域がまだいくつかあると書いています.人間の臨床医または患者に対する効果的な不確実性。

Leave a Comment

Your email address will not be published. Required fields are marked *