参考我的previous question之一,我必须抓住酒店的评论(所有评论),例如hotel
使用BeautifulSoap
,我已经完成的工作,我首先获得所有评论页面链接来自具有类BVRRPager BVRRPageBasedPager
的div中的分页,然后从所有页面中删除评论。
BeautifulSoap的问题是div.BVRRRatingSummary
中的内容没有出现(尝试在禁用JS的情况下借用该页面)
我使用Selinium删除了评论,但我的客户不想使用Selinium,因为它加载了JS和图像的整页
我想知道他们可能会使用什么样的流程加载审核?是否有任何方法可以使用div.BVRRRatingSummary
来抓取BeautifulSoap
中的内容?
答案 0 :(得分:0)
您可以尝试使用firefox与firebug插件。加载网页时打开firebug并转到Net,然后单击XHR。这将显示正在加载哪些json文件。然后,您可以尝试直接获取这些文件,并使用像simplejson这样的库。