Tripadvisor的Python网络抓取工具未获取某些信息

时间:2019-03-06 01:58:54

标签: python excel web-scraping beautifulsoup

我不确定这是否是发布此文章的合适位置,但是我是python的初学者,在我从事的Web刮板项目上需要一些帮助!

这是我到目前为止所写的内容:

https://github.com/killersoda288/help/blob/master/Shortlist.py

我遇到了一些问题,我什至不确定如何开始使用谷歌搜索,将不胜感激!

最严重的问题是某些信息似乎不是随机收集的。我已经运行了几次代码,不同的属性将显示为0星级或0个房间,这确实让我感到困惑。

我没有的另一个不太严重的问题是效率。完成一页大约需要1分钟。我没有什么可比拟的,但我想尽可能提高效率!问题是,我不确定该怎么做。

再次感谢您的阅读!将不胜感激任何建议:)

1 个答案:

答案 0 :(得分:0)

让我总结您的问题:

  1. 无法提取房间数或星级。

    您需要查看更多项才能找到更多常见的模式来提取它们。我浏览了一下该页面,发现.ui_bubble_rating很可能会提取星级,.room-info可能会对房间号有所帮助。您可以随时进行验证。 (我希望我是对的:P)

  2. 您需要迭代每个项目的详细信息URL,因此将花费很长时间,也就是说,如果一页包含20个项目,则scraper需要发送20 + 1(此页面为1)请求,如何对此进行优化? / p>

    由于仅在详细信息页面上找到房间号,因此刮板应迭代每个项目。您可以通过多线程加载这些详细信息页面。 Scrapy可以很好地完成这项工作。