我正在使用python 3.7和OS-Windows 10专业版。
我有以下网址:
http://example.com/[text, image, table]/[0001-8000].pdf
我正在尝试形成一个看起来像
的表 1-文字
2-图片
3-文字
4-桌子
5-图片
等
我尝试使用http.client,来自urllib.request的urlopen,请求等。所有这些都超时了,或者给出了非数字端口错误。
一个例子:
import requests
baseURL = 'http://example.com/'
type = ['text', 'image', 'table']
for fN in range (8000):
for tp in type:
workURL = baseURL + tp + '/' + str(fN + 1).zfill(4) + '.pdf'
if requests.head(workURL, timeout = 0.0001).status_code == 200:
"write fN + 1 and tp values to a csv file before proceeding to the next loop with next fN."
break
无输出。只需“挂在” if requests.head(workURL, timeout = 0.0001).status_code == 200: