自然言語処理についての質問です.

nltkを用いて,BLEUスコアの算出をしようと試みています.
ところが,以下のコードを試したところ,
hypothesis1とhypothesis2で算出されたBLEUスコアが同じになり,
正しくスコア算出ができていないのではと懸念しています.

どなたか,下記のような結果になる理由をご教示いただけますでしょうか.

import nltk #version:3.2.4

hypothesis1 = ['a', '1', 'b', 'c', 'd', 'e', 'f']
hypothesis2 = ['a', '1', '2', '9', '3', '4', 'f']

reference = ['1', '2', '9', '3', '4']

print(nltk.translate.bleu_score.sentence_bleu([reference], hypothesis1))
#0.614788152951

print(nltk.translate.bleu_score.sentence_bleu([reference], hypothesis2))
#0.614788152951