我正在寻找自己创建应用程序的个人项目,我可以从我的浏览器所在的站点保存文档/文本/图像。我已经做了很多研究,得出结论:现在两种方法中的任何一种都是可能的:使用cookie或数据包嗅探器来识别IP地址(此时数据包嗅探器方法更加相关)。
我想自动化应用程序,因此我不必在我的浏览器上复制并粘贴网址,并使用urllib将其粘贴到脚本中。
有经验的网络程序员可以提供有关我需要的流程或模块或库的建议吗?
非常感谢 乔纳森
答案 0 :(得分:0)
如果您想在主动浏览时下载所有图像,文档和文本(考虑到大量带宽可能是一个坏主意),那么您需要的不仅仅是urllib2。我假设您不想继续复制并将所有网址粘贴到脚本中以下载所有内容,如果不是这样的话,简单的urllib2和beautifulsoup过滤器会让您感到奇怪。
然而,如果我认为是正确的,那么你可能会想要研究硒。从那里你可以启动一个selenium窗口(默认为Firefox)然后正常浏览。最好的选择是不断轮询当前的URL,如果它不同,则标识要下载的所有元素,然后使用urllib2下载它们。因为我不知道你想要下载什么,所以我无法真正帮助你。然而,这里的内容在selenium中会是这样的:
from selenium import webdriver
from time import sleep
# Startup the web-browser
browser = webdriver.Firefox()
current_url = browser.current_url
while True:
try:
# If we have a url, identify and download your items
if browser.current_url != current_url:
# Download the stuff here
current_url = browser.current_url
# Triggered once you close the web-browser
except:
break
# Sleep for half a second to avoid demolishing your machine from constant polling
sleep(0.5)
我再次建议不要这样做,因为不断下载图像,文本和文档会占用大量空间。