mecabの分かち書きが遅すぎて終わらない
tsvファイルから文書を呼び出し、MeCabを用いて特定の品詞を基本形で分かち書きするコードを動かしているのですが重すぎて5時間以上経った今でも処理が終わりません。
PCのスペック自体そこまでいいわけではないのですが、ほかのコードを動かしているときにはこのようなことはなかったので、何かコードに問題があるのではないかと思い、質問させていただきます。
with open("jurycomment2.tsv",mode='r',encoding='utf-8') as f:
# reports.tsvには一行に口コミID,口コミがtab区切りで保存されている
reader = csv.reader(f, delimiter="\t")
for report_id, report in reader:
words = []
node = mt.parseToNode(report)
while node:
if node.feature.split(",")[0] == u"名詞":
words.append(node.surface)
elif node.feature.split(",")[0] == u"形容詞":
words.append(node.feature.split(",")[6])
elif node.feature.split(",")[0] == u"動詞":
words.append(node.feature.split(",")[6])
node = node.next
stopword = []
words2 = [token for token in words if token not in stopword]
# wordsが文章の単語のリスト,tagsには文章IDを指定
reports.append(TaggedDocument(words=words2, tags=[report_id]))
tsvファイルは500kbほどですのでこのファイルは原因ではないと思われます。