nltkにおけるBLEUスコアの算出方法について
自然言語処理についての質問です.
nltkを用いて,BLEUスコアの算出をしようと試みています.
ところが,以下のコードを試したところ,
hypothesis1とhypothesis2で算出されたBLEUスコアが同じになり,
正しくスコア算出ができていないのではと懸念しています.
どなたか,下記のような結果になる理由をご教示いただけますでしょうか.
import nltk #version:3.2.4
hypothesis1 = ['a', '1', 'b', 'c', 'd', 'e', 'f']
hypothesis2 = ['a', '1', '2', '9', '3', '4', 'f']
reference = ['1', '2', '9', '3', '4']
print(nltk.translate.bleu_score.sentence_bleu([reference], hypothesis1))
#0.614788152951
print(nltk.translate.bleu_score.sentence_bleu([reference], hypothesis2))
#0.614788152951