だいぶ分かりやすい Apache Mahout(マハウト)で機械学習/hadoop

twcritique
クラスタリングと分散と仮想化

hadoopを使った機械学習ライブラリ、それがMahout(マハウト)

「Mahout」は、Hadoopのスケーラビリティを生かし、ビッグデータを用いた機械学習を可能にするライブラリです。

Mahoutで出来ることは大きく分けて3つあります。

Mahoutと、できること レコメンデーション

強調フィルタリングというのは、レコメンドのアルゴリズムの一種で、ユーザがアイテムを評価したデータを元に関係を調べる方法のことを言います。大きくわけるとユーザベースとアイテムベースの2種類がありますが、Mahout はどちらも利用できます。

クラスタリング

Mahoutはいくつかのクラスタリング・アルゴリズムを実装しています。どのアルゴリズムも Map-Reduce を使って作成されており、それぞれが独自の目標と基準を持っています。

例えば、大量の本をクラスタリングしたい場合、本自体は固定数個の数値の順序付きリストではありません。この本の分類の根拠になるような情報をベクトルの形で表現しないとクラスタリングはできないのです。

で、今回のクラスタリングには k-means clastering という手法を使います。この手法では、あらかじめ「最終的にいくつのクラスタを作るのか」、という k の値を決めなければなりません。ここでは k = 3 として、3つのクラスタを作る前提でいきます。

分類器

https://matome.naver.jp/odai/2145777800489576201
2019年07月16日