URLからHTMLを取得すると「ページを表示することができませんでした」と返ってくる
pythonについての質問です。urllib.request.urlopen().read()でページのソースを取得しようとしたのですが、思い通りに取得できません。詳細は以下です。以下のプログラムにより、指定したurlのソースを取得し、"1.txt"に出力しました。
import urllib.request
url = "http://www.data.jma.go.jp/obd/stats/etrn/view/10min_a1.php?
prec_no=91&block_no=47945&year=2016&month=8&day=22&view="
html_nodecoded = urllib.request.urlopen(url).read()
html_decoded = html_nodecoded.decode('utf-8')
filename = "1.txt"
fa = open(filename,"w",encoding="utf-8")
fa.write(html_decoded)
fa.close()
しかしながら問題ここで問題が起こりました。
正確にhtmlを取得できているか確認するためにページのソースと"1.txt"を比べたところ、一部が食い違っており、正確に取得できていないことがわかりました。
以下は、"1.txt"のうち正確に取得できていなかった部分の近辺を抜き出したものです。
「"1.txt"(説明に必要な部分)」
..........
..(省略)..
..........
<li>10分ごとの値</li>
</ul></div>
<!-- //pankuzu menu -->
<div id="main">
<!-- contents -->
<h1 class="print">10分ごとの値</h1>
<br />ページを表示することが出来ませんでした。<br />ブラウザの「戻る」ボタンをクリ
ックしてください。</div></div></div><div id="footer_area"><div id="nfooter">
<p>気象庁:〒100-8122東京都千代田区大手町1-3-4 代表電話:03-3212-8341</p><ul>
<li><a href="http://www.jma.go.jp/jma/kishou/info/coment.html">気象庁ホームペ
ージについて</a></li></ul></div></div></body></html>
取得先のページのソースを確認したところ、ソースコードの一部分が
<br />ページを表示することが出来ませんでした。<br />ブラウザの「戻る」ボタンをクリックしてください。</div>
と置き換わってしまっていることがわかりました。
取得先のページのURLは以下です。
http://www.data.jma.go.jp/obd/stats/etrn/view/10min_a1.php?prec_no=91&block_no=47945&year=2016&month=8&day=22&view=
どうすれば正確に取得できるかわからず途方に暮れています。。
実行環境はpython3.7、windows10のコマンドプロンプトです。