应用错误收集

如何使用python scrapy单击按钮并从网站上刮取文本

时间：2018-06-22 06:08:37

标签： python-3.x web-scraping scrapy

我已使用python scrapy 从网站提取数据。现在，我可以使用scrapy抓取网站的大多数细节。但是我的主要问题是iam无法从该网站提取产品的所有评论。我只能提取显示在页面上的前4条评论，而要获得其他评论，我必须转到包含所有评论的弹出窗口。我在弹出窗口中查找了“ href”，但我找不到它。这是我尝试抓取的链接。评论和评分在页面底部：https://www.coursera.org/learn/big-data-introduction

任何人都可以通过解释如何从此弹出窗口中提取评论来帮助我。另一个需要注意的是弹出窗口可以无限滚动。

谢谢。

1 个答案:

答案 0 :(得分：0)

与Selenium和PhantomJS之类的工具不同，Scrapy不会在后台驱动完整的Web浏览器。您不能只单击一个按钮。

您需要了解按钮的作用（例如，按钮是否仅提交表单？它是否使用JavaScript进行处理？等等）并以您自己的代码重现功能。

例如，您可能需要读取script元素的内容，对其应用正则表达式以从字符串文字中提取URL，然后对该URL发起新的HTTP请求，然后对数据进行拼写您想要的新DOM。

...，然后重复无限滚动的下一个“页面”。