ページをスクレイピングしようと文字コードエラーがでます
このウエブページをスクレイピングしたいんですが、rvest
を用いてやろうと以下のエラーがでます:
library(rvest)
URL = 'http://www.oricon.co.jp/rank/js/w/2017-01-16/p/4/'
read_html(URL)
Error in
eval(substitute(expr), envir, enclos)
:
input conversion failed due to input error, bytes 0xFA 0xB1 0x90 0xE7 [6003]
同じサイトからそれ以外のページは問題はありません、例えば:
read_html('http://www.oricon.co.jp/rank/js/w/2017-01-16/p/2/')
# {xml_document}
# <html>
# [1] <head prefix="og: http://ogp.me/ns# fb: http://ogp.me/ns/fb#">\n <meta charset="shi ...
# [2] <body id="container"> \n<script src="//ajax.googleapis.com/ajax/libs/jquery/1.11 ...
これ(英語)を読んで文字コードを調べようとしました:
library(httr)
guess_encoding(content(GET(URL), 'raw'))
# encoding language confidence
# 1 ISO-8859-1 pt 0.72
# 2 ISO-8859-2 ro 0.44
# 3 UTF-8 0.10
# 4 Shift_JIS ja 0.10
# 5 GB18030 zh 0.10
# 6 EUC-JP ja 0.10
# 7 EUC-KR ko 0.10
# 8 Big5 zh 0.10
# 9 ISO-8859-9 tr 0.01
でもその中二つだけが日本語です。その二つも同じエラーをだせます:
read_html(URL, encoding = 'Shift_JIS')
Error in
eval(substitute(expr), envir, enclos)
:
input conversion failed due to input error, bytes 0xFA 0xB1 0x90 0xE7 [6003]
read_html(URL, encoding = 'EUC-JP')
Error in
eval(substitute(expr), envir, enclos)
:
input conversion failed due to input error, bytes 0x8F 0x54 0x8A 0xD4 [6003]
このページShift_JIS
/EUC-JP
意外の文字コードに当たりませんか?
下手の日本語申し訳ありません。よろしくお願いいたします!