Question

我正试图从网页抓取所有'a'链接：

from bs4 import BeautifulSoup
import requests


source_code = requests.get(starting_url)
plain_text = source_code.text
soup = BeautifulSoup(plain_text, "html.parser")
for link in soup.findAll('a'):
    href = link.get('href')
    print(href)

并且列表打印出来并非页面上的所有链接。如果我尝试打印出plain_text，我可以将所有这些链接打包，但它们不会打印为href。

第一周学习python！非常感谢所有帮助。谢谢！

更新：我忘了在这里分享plaint_text文件。对不起，感到困惑。

plain_text很长，所以我只发布starting_url

starting_url = 'https://freeexampapers.com/index.php?option=com_content&view=article&id=1&Itemid=101&jsmallfib=1&dir=JSROOT/IB'

是的，我是一名高中生： - ）

Answer 1

由于您没有提供任何数据样本，我们可以为您提供样本你可以试试： -

soup = BeautifulSoup(html_page,"html.parser")
for link in soup.findAll('a', attrs={'href': re.compile("^http://")}):
    print link.get('href')

Answer 2

这应该这样做。

SELECT users.name FROM users,json_each(users.phone,'$.cell') WHERE json_each.value = '234567890'

现在，如果您想要将链接存储在文本文件中，请执行以下操作。

import re
import requests
from bs4 import BeautifulSoup
import os
import fileinput

Link = 'https://animetosho.org/view/jacobswaggedup-kill-la-kill-bd-1280x720-mp4-batch.n677876'
q = requests.get(Link)
soup = BeautifulSoup(q.text)
#print soup
subtitles = soup.findAll('div',{'class':'links'})
#print subtitles


with  open("Anilinks.txt", "w") as f:
    for link in subtitles:
        x = link.find_all('a', limit=26)
        for a in x:
            url = a['href']
            f.write(url+'\n')

BeautifulSoup4找不到所有（）没有获取网页上的所有链接

2 个答案: