BeautifulSoup4找不到所有()没有获取网页上的所有链接

时间:2018-02-15 03:52:06

标签: python-3.x beautifulsoup

我正试图从网页抓取所有'a'链接:

from bs4 import BeautifulSoup
import requests


source_code = requests.get(starting_url)
plain_text = source_code.text
soup = BeautifulSoup(plain_text, "html.parser")
for link in soup.findAll('a'):
    href = link.get('href')
    print(href)

并且列表打印出来并非页面上的所有链接。如果我尝试打印出plain_text,我可以将所有这些链接打包,但它们不会打印为href。

第一周学习python!非常感谢所有帮助。谢谢!

更新:我忘了在这里分享plaint_text文件。对不起,感到困惑。

plain_text很长,所以我只发布starting_url

starting_url = 'https://freeexampapers.com/index.php?option=com_content&view=article&id=1&Itemid=101&jsmallfib=1&dir=JSROOT/IB'

是的,我是一名高中生: - )

2 个答案:

答案 0 :(得分:0)

由于您没有提供任何数据样本,我们可以为您提供样本 你可以试试: -

soup = BeautifulSoup(html_page,"html.parser")
for link in soup.findAll('a', attrs={'href': re.compile("^http://")}):
    print link.get('href')

答案 1 :(得分:0)

这应该这样做。

SELECT users.name FROM users,json_each(users.phone,'$.cell') WHERE json_each.value = '234567890'

现在,如果您想要将链接存储在文本文件中,请执行以下操作。

import re
import requests
from bs4 import BeautifulSoup
import os
import fileinput

Link = 'https://animetosho.org/view/jacobswaggedup-kill-la-kill-bd-1280x720-mp4-batch.n677876'
q = requests.get(Link)
soup = BeautifulSoup(q.text)
#print soup
subtitles = soup.findAll('div',{'class':'links'})
#print subtitles


with  open("Anilinks.txt", "w") as f:
    for link in subtitles:
        x = link.find_all('a', limit=26)
        for a in x:
            url = a['href']
            f.write(url+'\n')