世界で使用されるデータ量は天文学的な値に近づいています。Statista Research Departmentのレポートによると、世界のデータ作成は2025年までに180ゼタバイト以上に成長すると予測されています。
非常に多くのデータが生成されるため、企業が整理されていないデータを整理し、そこから洞察を引き出すことは困難です。そこで役立つのがクラスター分析です。クラスター分析は、異なるデータ間の類似点と相違点を特定することにより、データをさまざまなカテゴリに分類するのに役立ちます。
クラスター分析は、さらなる分析と解釈に関連するデータのパターンを特定するための前処理段階としてよく使用されます。言い換えれば、データサンプルからパターンを探索して分析し、それらを大まかなグループに分割することを目的としています。クラスター分析は、類似した項目をグループ化することでデータセットの次元 (属性の数) を減らすなど、さまざまな目的で使用できます。これにより、分析が簡素化され、効率が向上します。技術が進歩するにつれてデータのパターンを特定することで、新たなビジネスチャンスや以前は隠されていたトレンドの発見につながる可能性があるため、大量のデータを扱っている企業ではビジネス上の意思決定を支援する強力なツールとしてクラスター分析に注目しています。このガイドでは、まずクラスター分析とは何かを理解し、次にさまざまなタイプのクラスタリング、それらの要件、制限、およびビジネスへの適用について説明します。
クラスター分析とは何か?
クラスター分析は、探索的研究のためのデータ分析手法であり、異なるタイプのデータを、メンバーが同様の特徴を共有するグループに割り当てることができます。簡単に言うと、クラスター分析とは、膨大な量のデータの中から隠れた関係を発見することです。
クラスター分析では、特定のデータを自然なグループに並べ替えることができます。これらのデータが関連付けられる度合いは、同じグループに属している場合は最大になり、そうでない場合は最小になります。その後、データ構造を多次元マップとして視覚化し、データのグループが異なる種類のクラスターを形成することができます。
データマイニングのクラスターアルゴリズムは、多くの場合、ヒートマップとして示され、近くにある項目は似たような値を持ち、離れている項目は大きく異なる値を持ちます。これにより、データセットの残りの部分から外れ値として目立つ要素を簡単に特定できます。
最も一般的な9種類のクラスタリング
クラスター分析を行う際、100 を超えるアルゴリズムが使用できるため各方法にはデータ間の類似性を定義するための独自のルールがあります。以下で最も一般的なものを詳しく探ってみましょう。
1. 接続性クラスタリング
接続性クラスタリングとは、データ空間において近いデータ点の方が遠いデータ点よりも類似しているというモデルです。接続モデルは、パーティションベースのモデルと近接ベースのモデルにさらに分割できます。
近接ベースのモデルでは、距離を定義するためにさまざまな関数を使用しますが、これは主観的なものです。パーティションベースのモデルには 2 つのアプローチがあり、1 つ目のアプローチでは、すべてのデータ ポイントをクラスターに分類し、距離が短くなるにつれてそれらを集計します。もう1つは、すべてのデータ点を1つのクラスターとして識別し、距離が長くなるにつれて分割する方法です。近接ベースのモデルは解釈が簡単ですが、大規模なデータセットに合わせてスケーリングします。
2. ディストリビューションクラスタリング
このタイプのクラスター分析では、クラスターはデータセットの残りの部分よりも密度が高い領域によって分離されます。したがって、クラスターは通常、疎な領域のデータによって分割されます。一般的に、このような薄い領域にある項目は、グラフのノイズや境界点です。機能は限られています。
3. セントロイド・クラスタリング
これは対話的なクラスタリング・アルゴリズムであり、類似性はクラスタのセントロイドに対するデータ点の近接性とみなされます。K-Meansクラスタ分析はセントロイドクラスタリングモデルの一例で、kはクラスタ中心を表し、要素は最も近いクラスタ中心に割り当てられます。
セントロイド・モデルに関しては、セントロイド・モデルの後に必要なクラスタ数を確立する必要があり、データセットに関する事前知識が不可欠となります。
4. 密度準拠型クラスタリング
このクラスター分析モデルは、要素の密度に基づいています。たとえば、複数の要素が互いに隣接している場合、密度が高くなります。したがって、これらの要素は特定のクラスターに属していると見なされます。
ここでは、数式を使用して、特定の情報コレクションに対して許容される要素の密度を決定できます。計算された密度がしきい値より小さい場合、問題のコレクションに関連する要素が少なすぎてクラスターを形成できません。
5. 階層的クラスタリング
階層クラスター分析は、クラスターの階層を作成するモデルです。それぞれのクラスターに割り当てられたすべてのデータ・ポイントから始まり、2つの最も近いクラスターを共通のクラスターに結合します。最後に、このアルゴリズムが停止するのは、クラスタが1つだけになったときだけです。
階層クラスタリングはさらに2つのセクションに分けられます。
- 凝集アプローチ: ボトムアップ・アプローチはすべてのグループが1つのクラスタに統合されるまで、小さなクラスタを結合します。
- 分割アプローチ: クラスタが連続的に反復してより小さなクラスタに分割されるトップダウン・アプローチです。
6. パーティション・クラスタリング
n “個のデータからなるデータベースが与えられ、パーティショニング手法によって “k “個のパーティションが構築されるとします。パーティショニング手法は1つまたは複数のパーティションを構築することができ、パーティションの数はデータセット内のデータの総数以下であることに注意してください。
各データグループは、以下の条件を満たす必要があります。
- それぞれに少なくとも 1 つのデータが含まれている必要があります。
- 各データは 1 つのグループにのみ属している必要があります。
7. グリッドベースのクラスタリング
このクラスター分析では、すべてのデータが組み合わされ、格子状の構造を形成します。次に、データ空間が有限個のセルに量子化され、グリッド構造が生成されます。このクラスタリングの最も大きな利点は、量子化された空間の各次元におけるセル密度がこの操作に影響しないため、処理時間が短いことです。
8. モデルベースのクラスタリング
この手法は、各クラスタに対してモデルを仮定し、その特定のモデルに最も適合するデータを発見します。この手法では、クラスターを特定し、密度関数をグループ化することでデータポイントの地理的分散を反映します。
モデル・ベースのクラスタ分析は、信頼できるクラスタリング・アプローチの1つです。これは、従来の統計量に依存し、外れ値やノイズを考慮して、クラスターの数を自動的に識別することを可能にします。
9. 制約ベースのクラスタリング
このクラスター分析手法は、ユーザー指向またはアプリケーション指向の制約に基づいてアルゴリズムを実行します。制約は、ユーザーが期待する、または予想されるクラスタリング結果の属性です。ここで制約を指定する必要があることに注意してください。
データマイニングにおけるクラスター分析の要件
以下は、データマイニングプロセスにおいてクラスタリングが満たすべき基準の一部です。
1. さまざまな属性を処理する
さまざまな特性を持つ複数のデータセットに対して単一のクラスタ分析アルゴリズムを使用する、バイナリデータ、数値データ、カテゴリデータなどの複数の属性を処理できる柔軟なクラスタリングアルゴリズムを用意することをお勧めします。
2. ノイズデータの処理
データセットには、無関係なデータ、欠損データ、またはノイズの多いデータが含まれている場合があります。いくつかのアルゴリズムはこのようなデータの影響を受けやすく、低品質の結果を生成する可能性があります。
3. ランダムな形状のクラスターを識別する
どのような形状のクラスターであっても、クラスター分析手法によって検出可能でなければなりません。
4. 拡張性
大規模なデータセットを扱う場合、拡張性の高いクラスター分析アルゴリズムが必要です。
5. 高次元性
データセットには、低次元のものもあれば、高次元のものもあります。クラスター分析アルゴリズムは、両方の種類の次元を処理できる必要があります。
6. 解釈可能性
クラスタリング・アルゴリズムの結果は、解釈および理解が容易でなければならない。また、データ分析のたびに新しいクラスタリング・アルゴリズムを用意することは不可能である。したがって、ある程度再利用可能なアルゴリズムがあると便利です。
クラスター分析のビジネス 活用事例8選
どの業界も大量のデータを扱っています。そして、データがあるところには分類があります。クラスタリングは、データの広範な分類に役立つため、今日の時代にはいくつかのビジネスアプリケーションがあります。それらのいくつかについて以下で説明しましょう。
1. マーケティングセグメンテーション
クラスター分析手法は、マーケターや企業が、消費者の均質なグループを持つのではなく、ターゲットオーディエンスを同様の関心や機能を持つ個別のセグメントに分割するのに役立ちます。そうすることで、企業は自社の製品やサービスを戦略的にターゲットにすることができます。
2. 異常検知の自動化
データマイニングにおけるクラスター分析は、不正取引の特定など、異常なアクティビティを分析するための最良の方法です。クラスター検出方法では、まず適切なトランザクションのサンプルを調べ、通常のアクティビティのパターン、サイズ、および形状を特定します。不正トランザクションの場合、クラスターはそのパターンを標準アクションと区別し、アクティビティにフラグを立てます。
3. バイオ研究における分類作業
クラスター分析アルゴリズムを使用して、植物や動物の分類法を開発し、同等の機能を持つ遺伝子を分類し、集団構造に関する洞察を得ることができます。
4. 新たな機会の特定
クラスター分析をブランドや製品に使用することで、同じサービスや製品を持つ類似の競合市場を特定することができます。さらに、市場調査、パターン認識、データ分析にも役立ち、ビジネス上の意思決定を改善することができます。これらの結果を用いて、組織は競合他社に対する現在の成長を分析し、新製品の可能性を特定することができます。
5.データの次元削減
データ削減は、特定の仮説を立てることなく、膨大なデータ内の隠れたパターンを特定するために使用される無向クラスター分析手法です。同じことを行うには、多くのクラスタリング方法を検討し、ビジネス要件に最も適したものを選択できます。
6. レコメンド機能の開発
Netflixから必見の通知が届いたかもしれません。彼らがあなたの映画の好みをどうやって知っているのか疑問に思ったことはありませんか?その答えはクラスター分析です。クラスター分析により、レコメンデーションエンジンはユーザーの好みを理解し、さまざまなジャンルのクラスターから選択したものを提供できます。
7. SNS分析
フェイスブックやインスタグラムのようなソーシャル・サイトは、同じような興味や背景を持つ人々をグループ化するためにクラスタリング技術を使用しています。こうすることで、同じ興味を持つ人に似たようなフィードを表示することができます。
8.データ分析の効率化
クラスター分析は、広範で複雑なデータセットを小さな部分に分割し、効率的な操作を実行するのに役立ちます。たとえば、ロジスティック回帰の結果は、動作が異なり、分布も異なる小さなクラスターに対して演算を実行することで改善できます。
クラスター分析結果の検証
クラスター分析の結果が得られたら、次は結果を検証します。問題は、どうやって検証するかということです。クラスター分析の検証の2つの方法を用いて、その答えを見つけてみましょう。
1. 内部検証
別の予測分析方法を使用して、クラスター分析の結果を定量的に比較します。これは、1 つまたは他の方法が正しいことを保証するものではないことに注意してください。これはいくつかの潜在的なオプションを示しているにすぎません。このようにして、どのアプローチが最良の結果をもたらすか、また、より便利な分析のためにデータをさらに整理するためにどのアプローチの使用を検討するかを知ることができます。
内部検証には、以下で説明する 3 つの検証手段が含まれます。
- コンパクト性: この測定は、要素がクラスター内でどれだけ近いかを識別するのに役立ちます。クラスターのコンパクト性を評価するためのさまざまな指標は、観測値間の平均距離に依存することに注意してください。その結果、クラスター内の変動が小さいほどコンパクトであることを示し、その逆も同様です。
- 分離: このパラメーターは、クラスターが他のクラスターからどの程度分離されているかを示すのに役立ちます。分離測定に使用される指標には、クラスターの中心間の距離と、クラスター内の異なる要素間のペアワイズ距離が含まれます。
- 接続性: このパラメータは、データ空間内のオブジェクトが最も近い近傍とどの程度緊密にクラスタ化されているかを指定します。接続の範囲は 0 から無限大で、できるだけ低く抑える必要があります。
2. 外部検証
クラスター分析アルゴリズムの検証をテストするには、結果が既に決定されている別のデータセットに適用できます。このアプローチには欠点もあります。テスト セットは、一方の方法が他方の方法よりも適しているようにまとめられている可能性があります。
全体として、クラスタリングの検証では、特定のデータセットに対してどの方法が優れているか、または悪いかを正確に示しているわけではありませんが、それでも価値があると見なされる可能性があります。検証メソッドに絶対値をアタッチすることはできません。
クラスター分析の限界
クラスター分析の最大の欠点は、「クラスタリング」という用語が広範囲に及ぶことです。つまり、データをグループに分離するさまざまな方法があるということです。その結果、クラスタリングの方法が異なれば、得られる結果も異なります。これは、グループ化の方法が異なる基準に基づいているために起こります。
また、選択したクラスター分析手法が特定の問題に関連しているかどうかに気付かないケースも少なくありません。したがって、クラスター分析のもう 1 つの制限は、得られた結果を検証する方法が最小限しかないことです。