アビヤ・トリパティ
文書の要約は、テキスト マイニングにおいて非常に難しいタスクです。大きな文書を、元のテキストのサブグループである簡潔な短い文に要約することを、抽出要約と呼びます。テキスト要約にはさまざまな用途がありますが、ここでは CNN ニュースの記事を主要な文に要約します。このプロジェクトでは、トピック モデリング アルゴリズムの潜在的ディリクレ配分を使用して、抽出テキスト要約を生成します。これは、テキストから重要なトピックをキャプチャし、後で分布重み付けメカニズムを使用してテキストから文を取得するために使用されます。モデルはデータに対して適切に機能し、ニュース記事の要約を取得します。これにより、長いテキストや文書を読む時間を節約できます。文書要約は、文書から重要で関連性の高いデータを抽出し、包括的で意味のある情報を作成する手段です。このプロジェクトでは、文書を文のセグメント化リストにして、大規模文書の抽出要約を実行し、潜在的ディリクレ配分法 (LDA) アルゴリズムに適用して主要なトピックを抽出します。次に、文中のそれらのトピックの単語の頻度を使用して、テキストを要約するために最も分布の大きいキー文を抽出します。レポートは、以下のセクションで構成されています。セクション II の文献レビューでは、文書要約と LDA に向けたさまざまな著者の研究について説明します。セクション III では、LDA モデルを使用して実装された実際の方法論を指定し、データ処理を含めます。テキスト モデリングと文書要約の実証結果については、セグメント IV で説明します。最後に、セクション V で結論と将来の展望を示します。これらの情報を要約することは非常に重要であり、必要です。文書要約は、自然言語処理 (NLP) とビッグ データの分野で重要な研究になっています。トピック モデリング LDA アルゴリズムを使用した抽出要約は、元の文書から重要な文の要約を正常に生成します。また、トピックの多様性も十分に提供します。今後は、徐々に対象を絞った研究を進め、要約生成をさらに改善し、さまざまなトピック モデリング手法を活用していく予定です。また、さまざまな言語に対処する方法も評価する予定です。将来的には、より人間らしい要約である抽象的な要約を生成することも可能であり、セマンティック言語生成には高度な機械学習ツールが必要になります。