Python の正規表現置換で、日本語テクストを取り扱いたい
お世話になります。
Adobe InDesign に「配置」するために、Windows 上の『一太郎』から出力した Shift JIS のテクストを、Python の正規表現置換で整形したい、と望んでいます。
実際には、文中のルビや上付き・下付き文字を判別するために一旦、HTML に export してから、その HTML タグを取りのぞく過程を経由しており、そこまでは暫定的に終了しました。
ですが、「単語<RUBY>たんご</RUBY>
」のような自家製タグを逆転させるような作業、つまり「たんご<TMP>単語</TMP>
」の置き換えに失敗します。
わたしが書いてみた置換文は、
l = re.sub(r".<RUBY>.*</RUBY>", "\2<TMP>\1</TMP>}", l)
です。ですが、これを実行すると、当該場所にはエスケープ・シーケンスが当て嵌められて戻ってきます。
このような問題を解消する方法はありますでしょうか?
あるいは置換文の正規表現の問題ではなく、文字コードなどに由来する問題でしょうか?
どうか御教示くださいませ。
宜しくお願いします。