日本語のステミング(「よい」と「良い」が同じであるか判定する)方法
お世話になっております。
日本語の文章を分割する際にMeCabを使っています。ここで非常によく似た2つの文を入力します。
- 私たちは寿司屋に行った
- 私達はすし屋に行った
結果
- 私 たち は 寿司 屋 に 行っ た
- 私 達 は すし 屋 に 行っ た
使用した辞書はIPADICです。この2つは声に出して日本語話者が聞いたところ同じ文ですが、単純に文字列単位での比較をすると違いが2箇所出てきます。
また
- 本の書き出し
- 本の書きだし
この場合は
- 本 の 書き出し
- 本 の 書き だし
分割の結果まで異なってしまいます。
目的は声に出して読み上げたところ、これらの2つのペアが同じ文章であると判断させたいのですが、よい方法はないでしょうか?
よろしくお願いします。
2017年8月17日改変
追記に書いていた部分が回答としても成り立つので、回答に移しました。