从页面抓取的麻烦

时间:2014-11-27 17:42:47

标签: javascript python python-3.x beautifulsoup

参考我的previous question之一,我必须抓住酒店的评论(所有评论),例如hotel

使用BeautifulSoap,我已经完成的工作,我首先获得所有评论页面链接来自具有类BVRRPager BVRRPageBasedPager的div中的分页,然后从所有页面中删除评论。 BeautifulSoap的问题是div.BVRRRatingSummary中的内容没有出现(尝试在禁用JS的情况下借用该页面)

我使用Selinium删除了评论,但我的客户不想使用Selinium,因为它加载了JS和图像的整页

我想知道他们可能会使用什么样的流程加载审核?是否有任何方法可以使用div.BVRRRatingSummary来抓取BeautifulSoap中的内容?

1 个答案:

答案 0 :(得分:0)

您可以尝试使用firefox与firebug插件。加载网页时打开firebug并转到Net,然后单击XHR。这将显示正在加载哪些json文件。然后,您可以尝试直接获取这些文件,并使用像simplejson这样的库。