应用错误收集

使用BeautifulSoup和urllib使用哪个Python版本？

时间：2016-11-16 13:40:27

标签： python beautifulsoup version

我正在使用Python进行网页抓取。我在使用Python版本3时遇到了问题。所以我想知道哪个版本的Python适合网络爬行。

2 个答案:

答案 0 :(得分：1)

我认为转向Python 2.7肯定存在反对意见。没有理由我能够想到，特别是对于网页抓取，你需要恢复到Python 2.7。

BeautifulSoup 4和lxml都完全移植到Python 3.5。

urllib在Python 3.5中完全正常运行。您应该知道Python 2.7和Python 3.5中有differences in the implementation urllib。

但是，我建议你使用Requests包而不是urllib。这是post突出显示他们的一些差异。

如果您需要加载需要javascript的页面，Selenium也适用于Python 3.5。 Selenium还可以支持无头浏览（例如，PhantomJS）。

此外，这是Python的官方post，可以帮助指导您做出决定。

答案 1 :(得分：-2)

如果您确实选择安装一个标准Python发行版，确保你有Python 2.7.3或更高版本，但不要使用Python 3.0或后来;当然，这些版本是最先进的版本，但是我们将使用的许多软件包还没有Python 3.X 支持，直到他们这样做，3.X并不那么有吸引力。一个好的讨论Python 3.X中可用和不可用的内容，请参阅选择 Python版本。

得到了一个website，介绍并讨论了Python的web-cralling。我建议你接受他们的建议。我也经历过Python 2.7。*是目前使用其他软件包的最佳应用程序。