Pythonの文字コードに関して
Python初心者です。
BeautifulSoupを使ってスクレイピングを試みたのですがどうも文字コードに関する知識が乏しくうまくいきません。
html = urllib2.urlopen(req)
html2 = html.read()
soup = BeautifulSoup(html2, "html.parser")
tag = soup.findAll("p", attrs={"class":"txt"})
a = str(tag)
とってきたテキストの文字コードを見てみたら
print chardet.detect(a)
{confidence:1.0, 'encoding': 'ascii'}
という結果になりました。
そこでファイルに書き込む際、文字コードをShift-jisにしたくいろいろ試みたのですがうまくいきませんでした。
どなたか解決策を知ってる方がいらっしゃたら書き込みお願いします。
追記:http://www.goo-net.com/php/car_review/detail_list.php?car_cd=10101044
こちらのサイトの口コミのテキストをスクレイピングしようとしてます。