应用错误收集

从页面抓取的麻烦

时间：2014-11-27 17:42:47

标签： javascript python python-3.x beautifulsoup

参考我的previous question之一，我必须抓住酒店的评论（所有评论），例如hotel

使用BeautifulSoap，我已经完成的工作，我首先获得所有评论页面链接来自具有类BVRRPager BVRRPageBasedPager的div中的分页，然后从所有页面中删除评论。 BeautifulSoap的问题是div.BVRRRatingSummary中的内容没有出现（尝试在禁用JS的情况下借用该页面）

我使用Selinium删除了评论，但我的客户不想使用Selinium，因为它加载了JS和图像的整页

我想知道他们可能会使用什么样的流程加载审核？是否有任何方法可以使用div.BVRRRatingSummary来抓取BeautifulSoap中的内容？

1 个答案:

答案 0 :(得分：0)

您可以尝试使用firefox与firebug插件。加载网页时打开firebug并转到Net，然后单击XHR。这将显示正在加载哪些json文件。然后，您可以尝试直接获取这些文件，并使用像simplejson这样的库。