我正在从digikey部件创建数据库,并在批处理脚本中使用Wget来检索html。我无法通过关键字使用URL下载完整的html。
作为示例,我可以使用URL“ https://www.digikey.ca/product-detail/en/DF3-5P-2DSA-01/H3924-ND/560482”将html下载到我的“ Test_Read_File.txt”中,但是如果使用URL“ https://www.digikey.ca/products/en?keywords=DF3-5P-2DSA(01)”则无法下载。这两个URL将打开同一页面。我会使用第一个URL,但由于结尾处的“ 560482”数字对于每个组件都会有所变化,因此也无法使用。我的主程序将调用一个带有数千个制造商零件编号的.txt文件,并将它们一个接一个地插入,以替代DF3-5P-2DSA(01)。在这种情况下,我认为不需要Agent。
SET AGENT="Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 10.0; WOW64; Trident/8.0; .NET4.0C; .NET4.0E)"
Wget -U %AGENT% -O Test_Read_File.txt "https://www.digikey.ca/products/en?keywords=DF3-5P-2DSA(01)"
答案 0 :(得分:0)
我最终创建了一个使用硒的python脚本(.py),并从我的批处理中创建了一个调用。
from time import sleep
from bs4 import BeautifulSoup
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.digikey.com/products/en?keywords=EDH106M016A9BAA')
sleep(3)
source = driver.page_source
soup = BeautifulSoup(source)
saveFile = open('FILE-LOCATION','w',encoding='utf-8')
saveFile.write(str(soup))
saveFile.close()
driver.quit()