csvファイルから特定の文字列のみを抽出したい
以下のCSVを読み込み、ツイート内容を出力する際、特定の文字列リツイートのアカウント(RT @***)を含むアカウントのみを抽出し、別の列(test4)に反映させたいです。
実行環境として、Windows にPythonをインストールしています。
■CSVの内容
test1,tets2,test3,test4
RT @senti:学んでみたい言語は?
実装したい内容
test1, test4
RT @senti:学んでみたい言語は? @senti
casaseis
RT @sancho:今日は? @sancho
ocho
RT @sacamuchi:楽しい @sacamuchi
ウェブサイトで調べながら下記のコードを参照しましたが上手くcsvの行(test1)からRTアカウントを取得できないです。
RTのアカウントをのみ抽出するにはどのように設定すれば良いでしょうか。
お手数ですが、教えていただけますでしょうか?
import pandas as pd
import csv
pd.set_option('display.max_rows', 12000)
pd.set_option('display.width', 12000)
pd.set_option("display.max_colwidth", 12000)
df = pd.read_csv(r'/Users/catuti/Desktop/tweets_2019.csv', encoding='cp932', names=["test1", "RT @"], usecols=[0, 1], skiprows=[0], skipfooter=0, engine='python')
df= df.replace({'\n': '<br>'}, regex=True)
df= df.replace({'\r': ''}, regex=True)
df = df.query('test1.str.contains("RT @") or 内容.str.contains("RT @")')
df.to_html(r'C:/Users/catuti/Desktop/tweets_20191.csv',escape=False)