機械学習におけるアルゴリズムの分類
- 24-07-2022
- chuong xuan
- 0 Comments
学習アルゴリズムにはさまざまな種類があり、さまざまな基準に従って分類されています。たとえば、モデルの学習方法(学習スタイル)または機能に基づいて、次の基準で要約できます。
- トレーニングプロセスには人間の監督が必要ですか?教師あり(監視あり)、教師なし(教師なし)、半教師あり(半分監視あり)、強化学習(強化学習)。
- 古いデータポイントを新しいデータポイントと比較してデータの変化を比較し、そこから結論を導き出すか、トレーニングデータのルールパターンを構築してから、いくつかのアルゴリズムのように推測するモデルを構築します(インスタンスベース、モデルベースの学習)。
Mục lục
教師あり/教師なし学習
このアルゴリズムは、クラスタリング/ラベル付けの問題でよく使用されます。
教師あり学習
入力データペアから(data、label)であり、新しいデータの出力を予測します。新しい入力。つまり、入力がセットX = {x1、x2、…、xn}であり、対応するラベルセットY = {y1、y2、..、yn}の場合、X、Yは2つのベクトルです。 XとYがトレーニングデータセットであるとすると、このトレーニングセットから、Xの各要素をy_pre〜f(xi)で予測された要素yにマップする関数が必要になります。
電子メールのスパムをチェックする問題は、このモデルの実用的なアプリケーションです。アルゴリズムは、スパムかどうかのラベルが付いた入力メールを受け取ります。そしてそこから、恐怖に基づくアルゴリズムが、新しいデータを含む電子メールがスパムであるかどうかを判断します。線形回帰、ロジスティック回帰、ニューラルネットワークなどの教師あり学習アルゴリズム…
教師なし学習
このアルゴリズムでは、結果はわかりませんが、入力データのみがわかります。データ構造に基づいて、クラスタリングなどの特定のタスクを実行するかどうかを決定します。システムは誰も教えなくても学習します。
教師なし学習モデルでは、クラスタリングまたは関連付けなどの2つのアルゴリズムについて言及できます。
- クラスタリング:関連性に基づいてデータを分類するのに役立ちます。たとえば、そこからソーシャルネットワーク上の顧客をセグメント化して、ユーザーの行動を分析し、類似性のある人々のグループにデータを提供します。
- いくつかの人気のあるクラスタリングアルゴリズム
- K-Means
- k-中央値
- 期待値の最大化
- 階層的クラスター分析(HCA)
- いくつかの人気のあるクラスタリングアルゴリズム
- 関連付け:データのルールを定義します。
半教師あり学習
大量のデータがあるが、その一部しかラベル付けされていない問題は、半教師あり学習と呼ばれます。これは、教師なし学習と教師あり学習の中間です。たとえば、画像またはテキストの一部のみにラベルが付けられ(たとえば、人、動物、科学的または政治的なテキストの写真)、他のほとんどの画像/テキストにラベルが付けられていない問題。インターネットから収集されます。実際、ラベル付けされたデータの収集には時間がかかり、費用がかかるため、多くの機械学習の問題がこのグループに分類されます。多くの種類のデータには、専門家がラベルを付ける必要があります(医用画像など)。対照的に、ラベルのないデータはインターネットから低コストで取得できます。
強化学習
強化学習の入力データはほとんど不確定です。どのアルゴリズムが直接学習するか。次に、学習が増えるほど、出力データの精度が高くなります。これは、各機械学習に特定の報酬が与えられるためです。たとえば、AlphaGoは強化学習を使用するシステムであり、世界最高の囲碁プレーヤーにも勝っています。
概要
データがどのモデルに属しているかを判断することは、データと問題の要件に適合するトレーニングアルゴリズムを見つけるための非常に重要なステップです。この記事を通じて、MLのアルゴリズムについて誰もが理解できるようになることを願っています。次の記事では、上記の各アルゴリズムの説明と分析について詳しく説明します。