我正试图从网页抓取所有'a'链接:
from bs4 import BeautifulSoup
import requests
source_code = requests.get(starting_url)
plain_text = source_code.text
soup = BeautifulSoup(plain_text, "html.parser")
for link in soup.findAll('a'):
href = link.get('href')
print(href)
并且列表打印出来并非页面上的所有链接。如果我尝试打印出plain_text,我可以将所有这些链接打包,但它们不会打印为href。
第一周学习python!非常感谢所有帮助。谢谢!
更新:我忘了在这里分享plaint_text文件。对不起,感到困惑。
plain_text很长,所以我只发布starting_url
starting_url = 'https://freeexampapers.com/index.php?option=com_content&view=article&id=1&Itemid=101&jsmallfib=1&dir=JSROOT/IB'
是的,我是一名高中生: - )
答案 0 :(得分:0)
由于您没有提供任何数据样本,我们可以为您提供样本 你可以试试: -
soup = BeautifulSoup(html_page,"html.parser")
for link in soup.findAll('a', attrs={'href': re.compile("^http://")}):
print link.get('href')
答案 1 :(得分:0)
这应该这样做。
SELECT users.name FROM users,json_each(users.phone,'$.cell') WHERE json_each.value = '234567890'
现在,如果您想要将链接存储在文本文件中,请执行以下操作。
import re
import requests
from bs4 import BeautifulSoup
import os
import fileinput
Link = 'https://animetosho.org/view/jacobswaggedup-kill-la-kill-bd-1280x720-mp4-batch.n677876'
q = requests.get(Link)
soup = BeautifulSoup(q.text)
#print soup
subtitles = soup.findAll('div',{'class':'links'})
#print subtitles
with open("Anilinks.txt", "w") as f:
for link in subtitles:
x = link.find_all('a', limit=26)
for a in x:
url = a['href']
f.write(url+'\n')