我试图从特定链接中抓取一些url,我用beautiful-soup抓取了这些链接,但我无法抓取那些链接。在这里,我附上我使用的代码。其实,我想从“ fxs_aheadline_tiny”类中抓取网址
.dart
谢谢
答案 0 :(得分:0)
我会用硒。 请尝试以下代码:
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.options import Options
#open driver
driver= webdriver.Chrome(ChromeDriverManager().install())
driver.get('https://www.fxstreet.com/news?q=&hPP=17&idx=FxsIndexPro&p=0&dFR%5BTags%5D%5B0%5D=EURUSD')
# Use ChroPath to identify the xpath for the 'page hits'
pagehits=driver.find_element_by_xpath("//div[@class='ais-hits']")
# search for all a tags
links=pagehits.find_elements_by_tag_name("a")
# For each link get the href
for link in links:
print(link.get_attribute('href'))
它完全可以满足您的要求:它会删除搜索页面上的所有网址/链接(这也意味着指向作者页面的链接)。
您甚至可以考虑使浏览器自动化并浏览搜索页面结果。参见硒文档:https://selenium-python.readthedocs.io/
希望这会有所帮助