AI は次の論文を書くのに役立ちますか?

スマートフォンのテキスト オートコンプリート機能が非常に便利で、時にはイライラさせられることをご存知ですか? さて、今では同じアイデアに基づくツールが進歩し、研究者が科学論文を分析して作成し、コードを生成し、アイデアをブレインストーミングするのに役立っています。

これらのツールは自然言語処理 (NLP) に由来します。NLP は、コンピューターが「理解」し、人間が読めるテキストを生成するのを支援することを目的とした人工知能の分野です。 大規模言語モデル (LLM) と呼ばれるこれらのツールは、研究の対象になるだけでなく、研究の補助にもなるように進化しました。

LLM は、処理、特に言語生成のために大量のテキスト本体でトレーニングされたニューラル ネットワークです。 カリフォルニア州サンフランシスコの研究所である OpenAI は、2020 年に最も有名な LLM である GPT-3 を作成しました。これは、ネットワークをトレーニングして、前に来たものに基づいて次のテキストを予測することによって行われました。 Twitter などで、研究者はその不気味な人間のような文章に驚きを表明しています。 そして、OpenAI プログラミング インターフェイスを介して、誰でもそれを使用して、プロンプトに基づいてテキストを生成できるようになりました。 (価格は、処理される 750 ワードあたり約 0.0004 米ドルから始まります。これは、プロンプトの読み取りと応答の書き込みを組み合わせた尺度です。)

「ほぼ毎日 GPT-3 を使用していると思います」とアイスランド大学レイキャビク校のコンピューター科学者 Hafsteinn Einarsson 氏は言います。 彼はそれを使用して、論文の要約に関するフィードバックを生成します。 Einarsson が 6 月の会議で共有した 1 つの例では、アルゴリズムの提案のいくつかは役に立たず、彼のテキストに既に含まれている情報を追加するようにアドバイスしました。 しかし、「アブストラクトの冒頭でリサーチ クエスチョンをより明確にする」など、より役立つものもありました。 自分の原稿の欠陥を見つけるのは難しい場合がある、と Einarsson は言います。 「その上で 2 週間寝かせるか、誰かに見てもらうかのどちらかです。 そして、その「他の誰か」がGPT-3になる可能性があります。」

組織的思考

一部の研究者は、LLM を使用して論文のタイトルを生成したり、テキストを読みやすくしたりしています。 カリフォルニア州スタンフォード大学のコンピューター サイエンスの博士課程の学生である Mina Lee は、「これらのキーワードを使用して、論文のタイトルを生成してください」などの GPT-3 プロンプトを出します。 面倒なセクションを書き直すために、彼女はイスラエルのテルアビブにある AI21 Labs の Wordtune と呼ばれる AI を利用したライティング アシスタントを使用しています。 「私は段落を書きますが、それは基本的にブレイン ダンプを行うようなものです」と彼女は言います。 「気に入ったよりきれいなバージョンが見つかるまで、[書き換え]をクリックするだけです。」

ニューヨークのブルックリンにあるテクノロジ スタートアップ企業 Scite のコンピューター科学者 Domenic Rosati は、Generate という LLM を使用して思考を整理しています。 カナダのトロントにある NLP 企業 Cohere によって開発された Generate は、GPT-3 とよく似た動作をします。 「私はメモ、またはただの落書きや考えを書き込んで、『これを要約してください』または『これを要約に変えてください』と言います」と Rosati 氏は言います。 「合成ツールとしてとても助かっています。」

言語モデルは、実験計画にも役立ちます。 あるプロジェクトでは、参加者から言語データを収集する方法として、Einarsson はゲーム Pictionary を使用していました。 ゲームの説明を受けて、GPT-3 は試すことができるゲームのバリエーションを提案しました。 理論的には、研究者は実験プロトコルの新たな解釈を求めることもできます。 リーに関して言えば、彼女はGPT-3に、ボーイフレンドを両親に紹介するときに何をすべきかブレインストーミングを依頼しました. ビーチ沿いのレストランに行くことを提案しました。

エンコーディングコーディング

OpenAI の研究者は、書籍、ニュース記事、ウィキペディアのエントリ、ソフトウェア コードなど、膨大な種類のテキストで GPT-3 をトレーニングしました。 その後、チームは、GPT-3 が他のテキストと同じようにコードを完成できることに気付きました。 研究者は Codex と呼ばれるアルゴリズムの微調整バージョンを作成し、コード共有プラットフォーム GitHub からの 150 ギガバイトを超えるテキストでトレーニングしました。1. GitHub は現在、Codex を Copilot と呼ばれるサービスに統合しました。このサービスは、ユーザーが入力するコードを提案します。

ワシントン州シアトルにあるアレン AI 研究所 (AI2 とも呼ばれる) のコンピューター科学者ルカ ソルダイニ氏は、少なくともオフィスの半分で Copilot を使用していると述べています。 ソルダイニ氏は、PDF を処理するボイラープレート コードを作成するプロジェクトを例に挙げて、反復的なプログラミングに最適だと述べています。 「それはただ何かをぼんやりさせただけで、『これがあなたが望むものであることを願っています』のようなものです。」 そうでない場合もあります。 その結果、Soldaini 氏は、問題を発見できるように、使い慣れた言語とライブラリにのみ Copilot を使用するように注意していると述べています。

文献検索

おそらく、言語モデルの最も確立されたアプリケーションには、文献の検索と要約が含まれます。 AI2 の Semantic Sc​​holar 検索エンジン (主に生物医学とコンピューター サイエンスの約 2 億件の論文をカバー) は、TLDR (長すぎるの略で、読まなかった) と呼ばれる言語モデルを使用して、ツイートの長さの論文の説明を提供します。 TLDR は、ソーシャル メディア プラットフォーム Facebook の研究者が作成した BART と呼ばれる初期のモデルから派生したもので、人間が書いた要約を微調整したものです。 (今日の基準では、TLDR は約 4 億個のパラメーターしか含まれていないため、大規模な言語モデルではありません。GPT-3 の最大バージョンには 1,750 億個が含まれています。)

TLDR は、科学論文を補強するアプリケーションである AI2 の Semantic Reader にも表示されます。 ユーザーがセマンティック リーダーでテキスト内の引用をクリックすると、TLDR の概要を含む情報がボックスにポップアップ表示されます。 Semantic Sc​​holar のチーフ サイエンティストである Dan Weld は、次のように述べています。

言語モデルがテキストの要約を生成するとき、多くの場合、「人々が好意的に幻覚と呼ぶものに問題があります」と Weld は言います。 TLDR は、真実性のテストで比較的うまく機能します2 — 論文の著者は、TLDR がその精度を 3 段階中 2.5 と評価するよう求められたと説明しています。ウェルド氏によると、これは、要約が約 20 単語の長さしかないためであり、アルゴリズムが、一般的でない単語を導入する要約を拒否するためでもあります。全文。

検索ツールに関しては、Elicit は 2021 年にカリフォルニア州サンフランシスコの機械学習非営利団体 Ought からデビューしました。 質問 「意思決定に対するマインドフルネスの効果は何ですか?」などの質問を引き出します。 10 個の論文の表を出力します。 ユーザーはソフトウェアに、要約やメタデータ、研究参加者、方法論、結果に関する情報などのコンテンツを列に入力するように要求できます。 Elicit は、GPT-3 などのツールを使用して、論文からこの情報を抽出または生成します。

メリーランド大学カレッジパーク校の Joel Chan は、人間とコンピューターの相互作用を研究しており、プロジェクトを開始するたびに Elicit を使用しています。 「検索に使用する適切な言語がわからない場合、これは非常にうまく機能します」と彼は言います。 ストックホルムのカロリンスカ研究所の神経科学者 Gustav Nilsonne は、Elicit を使用して、プールされた分析に追加できるデータを含む論文を見つけています。 このツールは、他の検索では見つからなかった論文を提案してくれました、と彼は言います。

進化するモデル

AI2 でのプロトタイプは、LLM の未来を感じさせます。 研究者は、科学的アブストラクトを読んだ後に質問をすることがありますが、論文全体を読む時間がありません。 AI2 のチームは、少なくとも NLP の領域で、そのような質問に答えることができるツールを開発しました。 まず、研究者に NLP 論文の要約を読んでもらい、それについて質問することから始めました (「分析された 5 つの対話属性は?」など)。 次に、チームは論文全体を読んだ後、他の研究者にこれらの質問に答えるように依頼しました。3. AI2 は、Longformer 言語モデルのバージョンをトレーニングしました。これは、他のモデルが取り込む数百語だけでなく、完全な論文を取り込むことができます。結果のデータ セットで、他の論文に関するさまざまな質問に対する回答を生成します。4.

ACCoRD と呼ばれるモデルは、NLP に関連する 150 の科学的概念の定義と類推を生成できますが、MS^2 は 470,000 の医療文書と 20,000 の複数文書要約のデータ セットであり、研究者が質問できるように BART を微調整するために使用されました。 . および一連のドキュメントを収集し、簡単なメタ分析要約を生成します。

そして、テキスト生成を超えたアプリケーションがあります。 2019 年、AI2 は 2018 年に Google によって作成された言語モデルである BERT を Semantic Sc​​holar の論文で微調整し、1 億 1000 万のパラメーターを持つ SciBERT を作成しました。 AI を使用して科学検索エンジンを作成した Scite は、SciBERT をさらに微調整して、検索エンジンが対象の論文を引用している論文をリストするときに、その論文を支持、対照、またはその他の方法で言及しているものとして分類するようにしました。 Rosati は、ニュアンスが文献の限界やギャップを特定するのに役立つと述べています。

AI2 の SPECTER モデルも SciBERT に基づいており、論文をコンパクトな数学的表現に縮小します。 Weld 氏によると、会議の主催者は SPECTER を使用して、提出された論文を査読者と照合し、Semantic Sc​​holar はそれを使用して、ユーザーのライブラリに基づいて論文を推奨しています。

ヘブライ大学エルサレム校および AI2 のコンピューター科学者である Tom Hope 氏は、AI2 の他の研究プロジェクトでは、言語モデルを微調整して、効果的な薬物の組み合わせ、遺伝子と疾患の関係、および COVID-19 研究における科学的課題と傾向を特定していると述べています。

しかし、言語モデルはより深い洞察や発見さえも可能にするでしょうか? 5 月、Hope と Weld はレビューを共著しました。5 Microsoft の最高科学責任者である Eric Horvitz 氏や、モデルを「[infer] 2 つの概念を再結合した結果です。」 「宇宙に飛んでいる猫の写真を生成するのは 1 つのことです」と、OpenAI の DALL E 2 画像生成モデルに言及して Hope 氏は言います。 しかし、「どうすれば、抽象的で非常に複雑な科学的概念を組み合わせることができるのでしょうか?」

それは未解決の質問です。 しかし、LLM はすでに研究に目に見える影響を与えています。 「ある時点で、これらの大規模な言語モデルを使用していなければ、人々はチャンスを逃すことになるでしょう」と Einarsson は言います。

Leave a Comment

Your email address will not be published. Required fields are marked *