Bytedance のコンピューター サイエンス研究者が開発したモノリス: メモリ効率の高い方法でディープ ラーニング ベースのリアルタイム レコメンデーション用の衝突のない最適化された埋め込みテーブル

過去 10 年間で、レコメンデーション技術を活用したビジネスの数が急増しました。 各ユーザーにパーソナライズされたコンテンツをリアルタイムの応答として提供することは、より良いカスタマー エクスペリエンスを追求するこれらのビジネス アプリケーションの共通の目標です。 そのために、ユーザーの最新の対話からの情報は、モデルをトレーニングするための主要な入力として頻繁に使用されます。 ユーザーのポートレートを最もよく描写し、ユーザーの関心と将来の行動を予測します。 大量のユーザー データは、大規模なデータ駆動型のニューラル モデルに自然に適合するため、ディープ ラーニングがレコメンデーション モデルを支配してきました。

Monolith のオンライン トレーニング アーキテクチャ

一方、業界レベルのレコメンデーション システムでディープ ラーニングの力を活用する取り組みは、実際のユーザーの行動から得られたデータの固有の特性から生じる問題によって改善する必要があります。 これらのデータは、言語モデリングやコンピューター ビジョンなどの従来の深層学習の問題で使用されるものとは次の 2 つの点で大きく異なります。1 つ目は、特徴がほとんどまばらで、カテゴリカルであり、動的に変化することです。2 つ目は、トレーニング データの基礎となる分布が非定常であることです。コンセプトドリフトとも呼ばれます。 これらの区別は、レコメンデーション システムに取り組んでいる研究者やエンジニアに新たな課題をもたらしました。

レコメンデーション データには主にまばらなカテゴリ特徴が含まれており、その一部はまれにしか表示されません。 それらを高次元の埋め込み空間にマッピングする一般的な方法は、いくつかの問題を引き起こします。 単語ピースの数が制限されている言語モデルとは対照的に、ユーザー数とアイテムのランキングは桁違いに大きくなります。 さらに悪いことに、より多くのユーザーとアイテムが許可されるにつれて、埋め込みテーブルのサイズは時間の経過とともに大きくなると予想されますが、フレームワークのようなフレームワークは埋め込みテーブルを表すために固定サイズの密な変数を使用します。

実際には、多くのシステムが衝突の少ないハッシュを使用して、フットプリント メモリを削減し、ID を大きくできるようにしています。 これは、埋め込みテーブル内の ID が頻度的に均等に分散され、衝突がモデルの品質に影響を与えないという、過度に理想主義的な仮定に基づいています。 残念ながら、実際のレコメンデーション システムでは、少数のユーザーまたはアイテムのグループで、はるかに多くのオカレンスが発生します。 埋め込みテーブルのサイズが有機的に大きくなるにつれて、ハッシュ キーの衝突の可能性が高まり、モデルの品質が低下します。

その結果、生産規模のレコメンデーション システムでは、パラメータでできるだけ多くの機能をキャプチャし、予約しようとするユーザーとアイテムの数を調整できるようにするのが自然です。 視覚的および言語的パターンが発達するのに何世紀もかかりますが、同じユーザーが 1 つのトピックに関心を持っていても、その熱意は刻々と変化する可能性があります。 その結果、ユーザー データの根底にある分布は非定常であり、コンセプト ドリフトと呼ばれます。 直感的に、より最近の過去の情報は、ユーザーの行動の変化をより効果的に予測するのに役立ちます。

コンセプト ドリフトの影響を軽減するには、ユーザーの最新の関心を反映するために、新しいユーザーのフィードバックに基づいて、サービング モデルをできるだけリアルタイムに近い形で更新する必要があります。 彼らは、大規模なレコメンデーション システムである Monolith を設計し、これらの違いと、その生産から生じる問題の観察に照らして、これらの問題点に対処しました。 彼らは、実稼働環境で設計を検証および反復するために広範な実験を実施しました。 衝突のないハッシュ テーブルと動的な機能削除メカニズムを設計することにより、Monolith は 1. まばらな機能に完全な表現力を提供します。

2. オンライン トレーニングを使用して、リアルタイムでトレーニングにフィードバックを提供するループをループします。

Monolith は、メモリ使用量がほぼ同じであるハッシュ トリックを使用するシステムよりも一貫して優れたパフォーマンスを発揮し、サーバーのコンピューティング パワーに過度の負担をかけることなく、最先端のオンライン サービス AUC を実現します。


チェックアウト . この研究のすべての功績は、このプロジェクトの研究者に帰属します。 また、忘れずに参加してください 私たちのRedditページ不協和音チャンネルでは、最新の AI 研究ニュース、クールな AI プロジェクトなどを共有しています。


Aneesh Tickoo は MarktechPost のコンサルティングインターンです。 彼は現在、ビライにあるインド工科大学 (IIT) でデータ サイエンスと人工知能の学士号を取得しようとしています。 彼はほとんどの時間を機械学習の力を利用することを目的としたプロジェクトに費やしています。 彼の研究対象は画像処理であり、それに関するソリューションの構築に情熱を注いでいます。 彼は人々とつながり、興味深いプロジェクトで協力するのが大好きです。


Leave a Comment

Your email address will not be published. Required fields are marked *