Pythonで検索エンジンから画像スクレイピング
PythonでBing画像検索した画像を自分のPCに保存したいのですが9割以上が空のファイルになってしまいます。
どのように対処したら良いのでしょうか?また、原因は何なのか詳しい方教えて下さいませんか?
よろしくお願いします。
http://o-tomox.hatenablog.com/entry/2013/09/25/191506
のページを参考にアカウントを作ってキーを取得、
http://ykicisk.hatenablog.com/entry/2015/02/15/124841
のページのコードをapi_key="hogehoge"の部分を自分のキーに書き換え、
python collect_images.py -q 検索ワード -o "C:/Users/hogehoge"
として実行したのですが、
URLError
url:http://www.hogehoge.jp/img.jpg
のようになり、0バイトのjpg,pngなどの画像ファイルがたくさん出力され、中身のあるファイルは1割以下です。
****追記****
バージョンは2.7の64bitでOSはWin7です。Anacondaで入れたものです。
****追記2****
proxy_dict = {"http":"your.proxy:8080"}
proxy = urllib2.ProxyHandler(proxy_dict)
opener = urllib2.build_opener(proxy)
urllib2.install_opener(opener)
をコメントアウトし、
response = requests.get(url,
auth=(api_key, api_key),
headers={'User-Agent': 'My API Robot'})#,
#proxies=proxy_dict)
として実行したところ、今まで100枚でやっていた(そのうち回収できたのは3,4枚?)ところ10枚に減らしたというところもあるのですが、10枚中5枚回収できました。
エラーのところは
url:http://images6.fanpop.com/image/hogehoge.jpg
Forbidden
のようになりました。