カイ・リュー、ヴィグネシュ・プラバーカール、チャウ・ヴー、ジェニファー・クロフォード、ジョセフ・ウェイト
大規模なナレッジ グラフ データセット内のエンティティ (ノード) と関係 (エッジ) を表すナレッジ グラフ埋め込み (KGE) を生成することは、表現学習における困難な問題でした。これは主に、大規模で異種なグラフ内のデータの全範囲をエンコードするために必要な埋め込み/ベクトル表現が高次元である必要があるためです。多数のベクトルの方向付けには多くのスペースが必要であり、これは埋め込みを高次元に投影することで実現されます。これは、特にナレッジ グラフのサイズが大きくなり、より多くのデータを組み込むことが予想される場合は、スケーラブルなソリューションではありません。埋め込みを低次元数に制限しようとすると問題が生じる可能性があります。限られた次元数内で多数の埋め込み/ベクトル表現を空間的に方向付けるためのスペースが不十分な場合、これらの埋め込みを利用してナレッジ グラフ内の 2 つ以上のエンティティ間のリンクの存在の可能性を予測するリンク予測などの下流タスクでの推論が不十分になる可能性があります。これは特に、遺伝子、疾患、シグナル伝達経路、生物学的機能など、創薬への KG の応用に臨床的に関連する複数の多様なエンティティを関連付ける大規模な生物医学知識グラフの場合に当てはまります。したがって、生物医学知識グラフのサイズは、一般的なベンチマーク知識グラフ データセットと比較してはるかに大きくなります。これにより、グラフの潜在的な意味構造を表す高品質の埋め込み/ベクトル表現を生成することが非常に困難になります。埋め込みの次元を増やすことでこの課題を回避しようとすると、高次元の埋め込みの生成は計算コストが高く、多くの場合実行不可能であるため、ハードウェアの制限が生じることがよくあります。このような大規模な知識グラフ (KG) の潜在的な構造の表現を実際に処理するために、私たちの研究では、完全な知識グラフをいくつかの小さなサブグラフにサンプリングし、KGE モデルが個々のサブグラフごとに埋め込みを生成するアンサンブル学習モデルを提案します。各サブグラフでトレーニングされた KGE モデルからのリンク予測の結果は集約され、完全なナレッジ グラフ全体にわたる統合されたリンク予測セットが生成されます。実験結果では、4 つのオープンソースの生物医学ナレッジ グラフ データセットでのタスク固有のリンク予測と一般的なリンク予測に関するランクベースの評価メトリックが大幅に改善されたことが示されました。