複数日本語文章の分類の簡単な実装方法について
文章の分類方法のメリットデメリットを教えてください。
■インプット
・200文字程度の複数の日本語文章
・分類先(恋愛、ホラー、サスペンスなど、予め10個程度定義)
■アウトプット
文章A -> 恋愛
文章B -> サスペンス
文章C -> ホラー
、、、
■分類方法
ちょっと調べたところ下のような方法が、
機械学習周りが素人の自分(ただのRailsエンジニア)には簡単に実装できるという観点でいいのかなと思いました。
下記2点のメリットデメリットをお聞きしたいです。他にもよい方法があれば教えてくださると助かります。
文章を形態素解析->TF-IDFで特徴語を抽出しそれをタグとする-> タグを手動で分類(恋愛、ホラー、サスペンスなど)。TFは自分で計算して、IDFは汎用的なものをつかうといいなど聞いたことが有ります。
ナイーブベイズ分類で分類(よく知らないのでざっくりですみません)
■補足
Railsで実装しているので、gemがあるとうれしいです