MeCabで短単位かつ最新の語彙が収録された辞書を使う方法
お世話になっております。
MeCabには多数の辞書がありますが、IPADICとUniDicは長い間メンテナンスされていません。また人手によってチェックされている面もあるので、語彙数は多くありません。
NEologdは今でも週に2回更新されていて語彙数はとても多いのですが、私の用途では分割が長すぎて不適なケースがあります。
- 「国立オリンピック記念青少年総合センター」のような長い単語は短く切ってほしい
- 「ミエケンドウナラケンドウキョウトフドウハチジュウニゴウウエノミナミヤマシロセン」のような単語は長い単語をカタカナにしたような単語は入っていないほうがよい
MeCabのコスト再学習などの方法で短い単語が選ばれやすくすることはできますが、今のところ十分な成果は得られていません。
日本語の処理では長単位よりも短単位がよいケースは多々あると思うのですが、こういう場合に皆様はどのような方法で対処しているかご指導をいただけたら幸いです。
よろしくお願いします。