pythonのbf4でスクレイピング中にエラーがでる!
pythonでクローラーを制作したのですが、クローリングしてwebページのタイトルを取得する時にエラーが出る時があります。ですがクロール中のどこのページでエラーが出るのかわからないので原因がわかりません。ちゃんとクロールできるページもあります。お手上げ状態なのでアドバイスを頂けると幸いです。よろしくお願いします。
調査結果
一応タイトルタグがない状態ででるエラーなのかと思い調査しましたが違いました。
タイトルの文字が長すぎるのかとも思いましたが、それも違いました。
titleタグが空の時は空のまま出てきます。
エラー
Traceback (most recent call last):
File "/vagrant/pysearch-master/manage.py", line 15, in <module>
crawl_web('https://applech2.com/', 8)
File "/vagrant/pysearch-master/web_crawler/crawler.py", line 147, in crawl_web
title = _get_page_tite(html)
File "/vagrant/pysearch-master/web_crawler/crawler.py", line 61, in _get_page_tite
title = BeautifulSoup(html, "html.parser").find('title').text
File "/home/vagrant/.virtualenvs/dev/local/lib/python3.4/site-packages/bs4/__init__.py", line 192, in __init__
elif len(markup) <= 256 and (
TypeError: object of type 'NoneType' has no len()
クローラーのコードは以下のgithubに上げてあります。
https://github.com/wimpykid719/pythonengine/blob/master/web_crawler/crawler.py