我是网络抓取的完全新手;我有一个从COCA抓取一些数据的小项目,但我甚至不知道从哪里开始。似乎这个网页是使用一些Javascript构建的,我想知道是否有一些软件包可以让我与它进行交互?
以下是我希望程序执行的一些任务:
任何建议都将不胜感激。
PS:理想情况下,一切都应该在后台工作(不会打开浏览器)。
答案 0 :(得分:0)
from pyvirtualdisplay import Display
from selenium import webdriver
display = Display(visible=0, size=(800, 600))
display.start()
browser = webdriver.Firefox()
browser.get('http://www.google.com')
print browser.title
browser.quit()
display.stop()
答案 1 :(得分:0)
正如有些人告诉你的那样,你可以使用selenium
。
我建议您输入浏览器的开发人员工具,并按照网站的网络请求进行操作,具体取决于页面的行为,您可以使用python模块request
来模拟您看到的请求正在制作网站,我个人认为它更简单。
如果您无法模拟请求,请使用selenium。