特徴量として使えるデータを平均の差から見つけ出す方法
クラスタリングを行う上で、特徴量を選択する際に「平均の差」を使おうと考えています。
複数ある属性のうち、平均差が大きいものを特徴量として選択すれば、より適切に集団を分割できるのではないかと考えています。
その際の「平均の差を比較する」方法がわかりません。
例えば、高校のクラスが2つ(A組、B組)あったとし、
それぞれ身長の平均(cm)、体重の平均(kg)、アルバイト収入の平均(円)を算出済だと仮定します。
| A組 | B組 |
-------------
平均身長 | 190 | 180 |
平均体重 | 75 | 70 |
平均収入 |10000| 500 |
このとき、平均身長は10cm差、平均体重は5kg差、平均アルバイト収入は9500円ですが、
どれか一つを特徴量として選択しなければならない場合、
どれを選べばよいのか解りません。
(単位が異なるので単純に比較できないと考えています)
調べていると、scikit-learnにMinMaxScalerやStandardScalerというものがありますが、
単にこれらを使えば良いのでしょうか?
それとも別の尺度を適用しないとだめでしょうか?