pdftoppmで出力した文字列が文字化けする
updated:
xpdfの pdftoppm を使ってPDFからppmファイルを出力する際、PDFファイルに含まれている文字列の一部が文字化けしてしまいます。文字列は以下のような感じです。
A̲30̲12̲03̲9995
アンダースコアのように見えるのは発音区別符号です(utf8コードの0x332)。これはエンコードエラーかフォントのマッピングエラーでしょうか?
pdftoppm: 4.01.01
ubuntu: 18.04.2 LTS
実行コマンド:
pdftoppm -f 1 -l 1 sample.pdf sample
xpdfファイルの設定:
textEncoding UTF-8
fontDir /usr/share/fonts/truetype/
cidToUnicode Adobe-Japan1 /usr/local/share/xpdf/japanese/Adobe-Japan1.cidToUnicode
unicodeMap ISO-2022-JP /usr/local/share/xpdf/japanese/ISO-2022-JP.unicodeMap
unicodeMap EUC-JP /usr/local/share/xpdf/japanese/EUC-JP.unicodeMap
unicodeMap Shift-JIS /usr/local/share/xpdf/japanese/Shift-JIS.unicodeMap
cMapDir Adobe-Japan1 /usr/local/share/xpdf/japanese/CMap
toUnicodeDir /usr/local/share/xpdf/japanese/CMap
fontFile MSPGothic /usr/share/fonts/opentype/ipafont-gothic/ipagp.ttf
pdffontsコマンドによる文字列情報:
$ pdffonts sample.pdf
name type emb sub uni prob object ID
------------------------------------ ----------------- --- --- --- ---- ---------
MSPGothic CID TrueType no no no X 15 0