BeautifulSoupでのリンクの選出
現在、BeautifulSoupw用いてスクライブを行っています。
あるサイトではHTMLでのリンクとPDFでのリンクが同ページにあるのですが、PDFのリンクだけを取得したいです。
下記のコードだとPDF,HTMLのリンクが混じったものがprintで出てきてしまいます。
htmlのリンクを除外する方法をお教示お願いできればと思い質問させていただきました。
for a_tag in soup.find_all('a'):
link_pdf = (urljoin(cur_url, a_tag.get('href')))
#行の始めがjavaを除外
if link_pdf.startswith('javascript'):
continue
#行の終わりがpdf、/を除外
if link_pdf.endswith('pdf'):
continue
if link_pdf.endswith('/'):
continue
#行内にpdfがあるか
#if link_pdf.find('pdf'):
#continue
print(link_pdf)