我不确定这是否是发布此文章的合适位置,但是我是python的初学者,在我从事的Web刮板项目上需要一些帮助!
这是我到目前为止所写的内容:
https://github.com/killersoda288/help/blob/master/Shortlist.py
我遇到了一些问题,我什至不确定如何开始使用谷歌搜索,将不胜感激!
最严重的问题是某些信息似乎不是随机收集的。我已经运行了几次代码,不同的属性将显示为0星级或0个房间,这确实让我感到困惑。
我没有的另一个不太严重的问题是效率。完成一页大约需要1分钟。我没有什么可比拟的,但我想尽可能提高效率!问题是,我不确定该怎么做。
再次感谢您的阅读!将不胜感激任何建议:)
答案 0 :(得分:0)
让我总结您的问题:
无法提取房间数或星级。
您需要查看更多项才能找到更多常见的模式来提取它们。我浏览了一下该页面,发现.ui_bubble_rating
很可能会提取星级,.room-info
可能会对房间号有所帮助。您可以随时进行验证。 (我希望我是对的:P)
您需要迭代每个项目的详细信息URL,因此将花费很长时间,也就是说,如果一页包含20个项目,则scraper需要发送20 + 1(此页面为1)请求,如何对此进行优化? / p>
由于仅在详细信息页面上找到房间号,因此刮板应迭代每个项目。您可以通过多线程加载这些详细信息页面。 Scrapy
可以很好地完成这项工作。