PDFの解析 文字の下線罫線の情報抽出
前提・実現したいこと
PDFファイルに記載された文字に下線が引かれているデータを抽出したい。引かれているのといないので区別したい。
※PDF編集で入れた?罫線のようです。どのように記載したかは不明。
pythonでPDFの文字解析を行い、そのデータに下線が引かれているか確認し区別するアプリを作っています。
pythonモジュールpdfminer3k
で解析を行いました。
該当のソースコード
Anaconda prompt
Scripts> pdf2txt.py data.pdf > text2.csv
Scripts> py
>>> import csv
>>> example_file = open('text2.csv')
>>> example_reader = csv.reader(example_file)
>>> example_data = list(example_reader)
>>> example_data[5]
csvの5行目にある住所に下線がPDFでは引かれていたのですが、抽出すると以下の様にただの文言になっていました。
発生している問題
\u3000大阪市倍野区\u3000\u3000\u3000\u3000\u3000
試したこと
エクセルで文字に罫線を引きPDF出力
上記解析を試しました。
’\x0c’という罫線情報らしきものは抽出できましたが、実際の一番上の画像のような罫線下線とは違いますので意味がないと思い、途方に暮れています。
補足情報(FW/ツールのバージョンなど)
- win10
- python3.6.0
- Anaconda3
- anaconda-script.py Command line client (version 1.6.0)
もし何かアドバイスいい案などご掲示頂ければ幸いです。
よろしくお願い致します。