使用BeautifulSoup和urllib使用哪个Python版本?

时间:2016-11-16 13:40:27

标签: python beautifulsoup version

我正在使用Python进行网页抓取。我在使用Python版本3时遇到了问题。所以我想知道哪个版本的Python适合网络爬行。

2 个答案:

答案 0 :(得分:1)

我认为转向Python 2.7肯定存在反对意见。没有理由我能够想到,特别是对于网页抓取,你需要恢复到Python 2.7。

BeautifulSoup 4和lxml都完全移植到Python 3.5。

urllib在Python 3.5中完全正常运行。您应该知道Python 2.7和Python 3.5中有differences in the implementation urllib。

但是,我建议你使用Requests包而不是urllib。这是post突出显示他们的一些差异。

如果您需要加载需要javascript的页面,Selenium也适用于Python 3.5。 Selenium还可以支持无头浏览(例如,PhantomJS)。

此外,这是Python的官方post,可以帮助指导您做出决定。

答案 1 :(得分:-2)

  

如果您确实选择安装一个标准Python发行版,   确保你有Python 2.7.3或更高版本,但不要使用Python 3.0或   后来;当然,这些版本是最先进的版本,但是   我们将使用的许多软件包还没有Python 3.X   支持,直到他们这样做,3.X并不那么有吸引力。一个好的   讨论Python 3.X中可用和不可用的内容,请参阅选择   Python版本。

得到了一个website,介绍并讨论了Python的web-cralling。我建议你接受他们的建议。我也经历过Python 2.7。*是目前使用其他软件包的最佳应用程序。