Question

我正在从digikey部件创建数据库，并在批处理脚本中使用Wget来检索html。我无法通过关键字使用URL下载完整的html。

作为示例，我可以使用URL“ https://www.digikey.ca/product-detail/en/DF3-5P-2DSA-01/H3924-ND/560482”将html下载到我的“ Test_Read_File.txt”中，但是如果使用URL“ https://www.digikey.ca/products/en?keywords=DF3-5P-2DSA(01)”则无法下载。这两个URL将打开同一页面。我会使用第一个URL，但由于结尾处的“ 560482”数字对于每个组件都会有所变化，因此也无法使用。我的主程序将调用一个带有数千个制造商零件编号的.txt文件，并将它们一个接一个地插入，以替代DF3-5P-2DSA（01）。在这种情况下，我认为不需要Agent。

SET AGENT="Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 10.0; WOW64; Trident/8.0; .NET4.0C; .NET4.0E)"

Wget -U %AGENT% -O Test_Read_File.txt "https://www.digikey.ca/products/en?keywords=DF3-5P-2DSA(01)"

Answer 1

我最终创建了一个使用硒的python脚本（.py），并从我的批处理中创建了一个调用。

from time import sleep
from bs4 import BeautifulSoup
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.digikey.com/products/en?keywords=EDH106M016A9BAA')

sleep(3)
source = driver.page_source
soup = BeautifulSoup(source)

saveFile = open('FILE-LOCATION','w',encoding='utf-8')
saveFile.write(str(soup))
saveFile.close()
driver.quit()

无法在批处理脚本中使用Wget下载完整的html

1 个答案: