Pythonで日本語を正規表現によってtxtファイルから助詞等を除きたい
環境
ubuntu 16.04 lts
python 3.6.0
失礼しました。質問内容に変更が生じたため、こちらのスレッドは解決済みに変更させて頂きます。
申し訳ありません。
さくらのレンタルVPS 512MBプラン
Python初心者です。よろしくお願いします。
ツイートを収集したtxtファイルをMeCabで形態素解析にかけて、頻度順に単語を並べ替えたところ、特殊記号[% & $ #]助詞が大量に含まれていて、うまく処理できていませんでした。
Pythonの正規表現に疎く、どうすれば「て・に・お・は・が・を」等の助詞と特殊記号を処理できるかで悩んでおります。
もし可能であればコードを教えて頂きたいです。
漠然としており申し訳ありません。
以下がテキストファイルの内容になります。
https://gist.github.com/anonymous/2d1cd1eee0daf99277a8f4b0a8e21581
どうぞよろしくお願い致します。
求める出力例:
@kanshihoさんの出力例のように名詞だけ綺麗に残して出力したいです。