我正在使用Python进行网页抓取。我在使用Python版本3时遇到了问题。所以我想知道哪个版本的Python适合网络爬行。
答案 0 :(得分:1)
我认为转向Python 2.7肯定存在反对意见。没有理由我能够想到,特别是对于网页抓取,你需要恢复到Python 2.7。
BeautifulSoup 4和lxml都完全移植到Python 3.5。
urllib在Python 3.5中完全正常运行。您应该知道Python 2.7和Python 3.5中有differences in the implementation urllib。
但是,我建议你使用Requests包而不是urllib。这是post突出显示他们的一些差异。
如果您需要加载需要javascript的页面,Selenium也适用于Python 3.5。 Selenium还可以支持无头浏览(例如,PhantomJS)。
此外,这是Python的官方post,可以帮助指导您做出决定。
答案 1 :(得分:-2)
如果您确实选择安装一个标准Python发行版, 确保你有Python 2.7.3或更高版本,但不要使用Python 3.0或 后来;当然,这些版本是最先进的版本,但是 我们将使用的许多软件包还没有Python 3.X 支持,直到他们这样做,3.X并不那么有吸引力。一个好的 讨论Python 3.X中可用和不可用的内容,请参阅选择 Python版本。
得到了一个website,介绍并讨论了Python的web-cralling。我建议你接受他们的建议。我也经历过Python 2.7。*是目前使用其他软件包的最佳应用程序。