科学者たちは心を決めた

研究者たちは、DALL-E や ChatGPT などのテキストおよび画像生成ツールを強化する AI 言語モデルの背後にある最大の謎の 1 つを解明し始めています。

ここしばらく、機械学習の専門家や科学者は、OpenAI の GPT-3 や Google の LaMDA などの大規模言語モデル (LLM) について何か奇妙な点があることに気づいていました。LLM は、実行するように特別に訓練されていないタスクを実行するのが不可解なことに得意です。これは複雑な質問であり、AI モデルがどのように出力に到達するかを詳細に説明することが、ほとんどの場合不可能ではないにしても、いかに難しいかを示す一例にすぎません。

arXiv プレプリントサーバーに投稿される今後の研究では、マサチューセッツ工科大学、スタンフォード大学、および Google の研究者が、「インコンテキスト学習」と呼ばれるこの「一見謎に満ちた」現象を調査しています。通常、新しいタスクを達成するには、ほとんどの機械学習モデルを新しいデータで再トレーニングする必要があります。このプロセスでは通常、研究者が希望する出力を得るために何千ものデータポイントを入力する必要があり、退屈で時間のかかる作業です。

しかし、コンテキスト内学習を使用すると、システムはわずかな例から新しいタスクを確実に実行する方法を学習でき、基本的にその場で新しいスキルを習得できます。プロンプトが与えられると、言語モデルは入力と出力のリストを取得し、明示的にトレーニングされていないタスクに関する新しい、多くの場合正しい予測を作成できます。この種の動作は機械学習の研究にとって非常に良い前兆であり、それがどのようにして起こるのか、そしてなぜ起こるのかを解明することで、言語モデルがどのように情報を学習して保存するかについて貴重な洞察が得られる可能性があります。

しかし、単に記憶するのではなく学習するモデルには何が違うのでしょうか?

「学習は[既存の]知識と絡み合っています」と、研究の筆頭著者でMITの博士課程学生であるイーキン・アキュレク氏はMotherboardに語った。「モデルにパラメータを更新することなく、これらのモデルが実行中にサンプルから学習できることを示しました。」

これは、モデルが単にトレーニングデータをコピーしているのではなく、人間や動物と同じように、以前の知識に基づいて構築されている可能性が高いことを意味します。研究者らは、ChatGPT や最近一般の人々が夢中になっているその他の人気のある機械学習ツールを使用して理論をテストしませんでした。代わりに、Akyürek のチームは、より小さなモデルとより単純なタスクに取り組みました。しかし、これらは同じタイプのモデルであるため、彼らの研究は、他のよりよく知られたシステムの基本部分についての洞察を提供します。

研究者らは、モデルに合成データ、つまりプログラムがこれまで見たことのないプロンプトを与えて実験を実施しました。それにもかかわらず、言語モデルは一般化してそこから知識を推定することができたとアキュレク氏は述べた。このことからチームは、コンテキスト内学習を示す AI モデルが実際には新しいタスクを達成するために内部に小さなモデルを作成しているという仮説を立てました。研究者らは、トランスフォーマーを分析することで理論をテストすることができました。トランスフォーマーは、文中の単語などの連続データ内の関係を追跡するために「自己注意」と呼ばれる概念を適用するニューラルネットワークモデルです。

研究者らは、実際の動作を観察することで、トランスフォーマーが隠れた状態、つまり入力層と出力層の間の空間で独自の機械学習モデルを作成できることを発見しました。これは、理論的にも経験的にも、言語モデルが「よく知られ、広く研究されている学習アルゴリズム」を一見単独で発明することが可能であることを示唆している、とアキュレク氏は述べた。

言い換えれば、これらのより大きなモデルは、より小規模で単純な言語モデルを内部的に作成およびトレーニングすることによって機能します。この概念は、マトリョーシカ風のコンピューターの中にコンピューターがあるシナリオとして想像すると理解しやすくなります。

Facebook AI Researchの科学者Mark Lewis氏は、チームの結果について声明で、この研究は「モデルがより複雑なタスクをどのように学習できるかを理解するための足がかりであり、研究者が言語モデルのより良いトレーニング方法を設計してパフォーマンスをさらに向上させるのに役立つだろう」と述べた。」

アキュレク氏は、GPT-3のような言語モデルが科学に新たな可能性をもたらすことに同意する一方で、それらのモデルは人間が情報を取得して処理する方法をすでに変えていると言う。以前は Google にプロンプトを入力すると情報が取得されるだけで、そのクエリに最適に機能する情報を選択 (クリック) するのは人間の責任でしたが、「現在では、GPT は Web から情報を取得するだけでなく、ユーザーに代わって情報を処理することもできます」」と彼はマザーボードに語った。「そのため、解決したいデータケースに対してこれらのモデルをプロンプトする方法を学ぶことが非常に重要です。」

もちろん、情報の処理を自動システムに任せると、あらゆる種類の新たな問題が生じます。 AI 倫理研究者は、ChatGPT のようなシステムが、緩和するのが難しく、完全に排除するのが不可能な性差別的および人種差別的な偏見をどのように再現するかを繰り返し示してきました。 AI モデルが GPT-3 のような規模と複雑さに近づくと、この害を防ぐのは不可能であると多くの人が主張しています。

将来の学習モデルが何を達成できるか、そして現在のモデルが今日何ができるかについてはまだ多くの不確実性がありますが、この研究は、最終的にはインコンテキスト学習を使用して、機械学習研究者が疑問なく抱くであろう問題の多くを解決できる可能性があると結論付けています。道路に面して。

サインアップすると、利用規約とプライバシーポリシーに同意し、マーケティングプロモーション、広告、スポンサー付きコンテンツを含む電子通信を Vice Media Group から受け取ることに同意したものとみなされます。

ニュース