我已使用python scrapy 从网站提取数据。现在,我可以使用scrapy抓取网站的大多数细节。但是我的主要问题是iam无法从该网站提取产品的所有评论。我只能提取显示在页面上的前4条评论,而要获得其他评论,我必须转到包含所有评论的弹出窗口。我在弹出窗口中查找了“ href”,但我找不到它。这是我尝试抓取的链接。评论和评分在页面底部:https://www.coursera.org/learn/big-data-introduction
任何人都可以通过解释如何从此弹出窗口中提取评论来帮助我。另一个需要注意的是弹出窗口可以无限滚动。
谢谢。
答案 0 :(得分:0)
与Selenium和PhantomJS之类的工具不同,Scrapy不会在后台驱动完整的Web浏览器。您不能只单击一个按钮。
您需要了解按钮的作用(例如,按钮是否仅提交表单?它是否使用JavaScript进行处理?等等)并以您自己的代码重现功能。
例如,您可能需要读取script
元素的内容,对其应用正则表达式以从字符串文字中提取URL,然后对该URL发起新的HTTP请求,然后对数据进行拼写您想要的新DOM。
...,然后重复无限滚动的下一个“页面”。