電気工学および電子技術ジャーナル

機械学習の問題へのアプローチ方法に関するガイド

マンシ・プリヤ  

今日、アルゴリズムは流行語のようなものです。誰もがロジスティック回帰、ランダムフォレスト、決定木、SVM、勾配ブースティングアルゴリズム、ニューラルネットワークなど、さまざまな種類のアルゴリズムを学ぼうとしています。毎日新しいアルゴリズムが作られています。しかし、データサイエンスは、データにさまざまなアルゴリズムを適用するだけではありません。アルゴリズムを適用する前に、データを理解する必要があります。これは、後でアルゴリズムのパフォーマンスを向上させるのに役立つためです。どのような問題でも、精度を向上させるために、データの準備、モデル計画、モデルの構築、モデルの評価という同じ手順を繰り返す必要があります。モデルの構築に直接ジャンプすると、1回の反復で方向性がなくなります。以下は、機械学習の問題に取り組むための、私個人の定義された手順です。私が提案する最初の手順は、ビジネス市場をよく理解して、問題を適切に理解することです。データがあり、アルゴリズムがあり、それで終わりというシナリオはありません。適切なビジネス理解は、次のステップでデータを処理するのに役立ちます。たとえば、銀行システムについて何も知らないと、顧客の収入などの機能を含める必要があるかどうかがわかりません。次のステップは、問題に関連するデータを収集することです。社内にあるデータ以外に、外部データソースも追加する必要があります。たとえば、売上予測を行うには、製品の売上に関する市場シナリオを理解する必要があります。GDP が売上に影響を与える場合や、人口が影響を与える場合があります。したがって、そのような種類の外部データを収集します。また、使用する外部データは、モデルが展開される将来に使用できる必要があることも覚えておいてください。たとえば、モデルで人口を使用する場合、来年もこのデータを収集して、翌年の予測を取得できる必要があります。データセットに対する外部データの重要性を認識せずに、社内データのみを使用する人をたくさん見てきました。しかし、実際には、外部機能はユースケースに良い影響を与えます。問題に関連するすべてのデータを収集したら、トレーニングとテストに分割する必要があります。多くのデータ サイエンティストは、70/30 ルールに従ってデータを 2 つの部分 (トレーニング セットとテスト セット) に分割します。一方、60/20/20 ルールに従ってデータを 3 つの部分 (トレーニング セット、テスト セット、検証セット) に分割するデータ サイエンティストも多くいます。私は 2 番目のオプションを好みます。この場合は、モデルの改善にテスト セットを使用し、実際のシナリオでのモデルの最終検証に検証セットを使用するためです。私は、デフォルト ローンの予測問題に取り組んでいました。私の精度は 78% でした。私は、ローン関連の金融システムを扱っている人に問題を持ち込みました。

免責事項: この要約は人工知能ツールを使用して翻訳されており、まだレビューまたは確認されていません