是否可以在不使用python中的第三方库的情况下刮取网页?

时间:2016-05-27 14:24:17

标签: python xml-parsing web-scraping beautifulsoup html-parsing

我试图了解蟒蛇在汤中的效果如何。我过去使用过美丽的汤,lxml,但现在尝试实现一个脚本,可以从给定的网页读取数据而不需要任何第三方库,但看起来像xml模块没有多少选项并且丢失了很多错误。是否有其他图书馆有良好的文档来从网页上读取数据? 我没有在任何特定网站上使用这些脚本。我只是想从公共页面和新闻博客上阅读。

1 个答案:

答案 0 :(得分:0)

存在第三方图书馆,让您的生活更轻松。是的,当然你可以在没有它们的情况下编写一个程序(图书馆的作者必须这样做)。但是,为什么重新发明轮子?

你最好的选择是美丽和斗志。但是,如果你对beautifulsoup有困难,我不会尝试斗争。

也许你可以只使用网站上的纯文字来获取?

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
pagetxt = soup.get_text()

然后,您可以使用所有外部库,只使用纯文本。但是,如果你需要做一些更复杂的事情。 HTML是您真正应该使用库进行操作的东西。它们太多了,可能会出错。