nltkにおけるBLEUスコアの算出方法について

自然言語処理についての質問です．

nltkを用いて，BLEUスコアの算出をしようと試みています．
ところが，以下のコードを試したところ，
hypothesis1とhypothesis2で算出されたBLEUスコアが同じになり，
正しくスコア算出ができていないのではと懸念しています．

どなたか，下記のような結果になる理由をご教示いただけますでしょうか．

import nltk #version:3.2.4

hypothesis1 = ['a', '1', 'b', 'c', 'd', 'e', 'f']
hypothesis2 = ['a', '1', '2', '9', '3', '4', 'f']

reference = ['1', '2', '9', '3', '4']

print(nltk.translate.bleu_score.sentence_bleu([reference], hypothesis1))
#0.614788152951

print(nltk.translate.bleu_score.sentence_bleu([reference], hypothesis2))
#0.614788152951