Question

我试图了解蟒蛇在汤中的效果如何。我过去使用过美丽的汤，lxml，但现在尝试实现一个脚本，可以从给定的网页读取数据而不需要任何第三方库，但看起来像xml模块没有多少选项并且丢失了很多错误。是否有其他图书馆有良好的文档来从网页上读取数据？我没有在任何特定网站上使用这些脚本。我只是想从公共页面和新闻博客上阅读。

Answer 1

存在第三方图书馆，让您的生活更轻松。是的，当然你可以在没有它们的情况下编写一个程序（图书馆的作者必须这样做）。但是，为什么重新发明轮子？

你最好的选择是美丽和斗志。但是，如果你对beautifulsoup有困难，我不会尝试斗争。

也许你可以只使用网站上的纯文字来获取？

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
pagetxt = soup.get_text()

然后，您可以使用所有外部库，只使用纯文本。但是，如果你需要做一些更复杂的事情。 HTML是您真正应该使用库进行操作的东西。它们太多了，可能会出错。

是否可以在不使用python中的第三方库的情况下刮取网页？

1 个答案: