如何使用python scrapy单击按钮并从网站上刮取文本

时间:2018-06-22 06:08:37

标签: python-3.x web-scraping scrapy

我已使用python scrapy 从网站提取数据。现在,我可以使用scrapy抓取网站的大多数细节。但是我的主要问题是iam无法从该网站提取产品的所有评论。我只能提取显示在页面上的前4条评论,而要获得其他评论,我必须转到包含所有评论的弹出窗口。我在弹出窗口中查找了“ href”,但我找不到它。这是我尝试抓取的链接。评论和评分在页面底部:https://www.coursera.org/learn/big-data-introduction

任何人都可以通过解释如何从此弹出窗口中提取评论来帮助我。另一个需要注意的是弹出窗口可以无限滚动。

谢谢。

1 个答案:

答案 0 :(得分:0)

与Selenium和PhantomJS之类的工具不同,Scrapy不会在后台驱动完整的Web浏览器。您不能只单击一个按钮。

您需要了解按钮的作用(例如,按钮是否仅提交表单?它是否使用JavaScript进行处理?等等)并以您自己的代码重现功能。

例如,您可能需要读取script元素的内容,对其应用正则表达式以从字符串文字中提取URL,然后对该URL发起新的HTTP请求,然后对数据进行拼写您想要的新DOM。

...,然后重复无限滚动的下一个“页面”。