如何从输出中删除html内容?

时间:2014-07-06 12:31:03

标签: python-2.7 web-crawler

import urllib

data = urllib.urlopen("https://www.python.org/")
for line in data:
    line.strip()
    print line

我正在尝试制作网络抓取工具但是当我运行上面的代码时,一些HTML内容也会被打印出来。我只想要网页的文本部分和超链接

2 个答案:

答案 0 :(得分:1)

一个有点基本的解决方案是.split over“<”和“>”标签,然后只需检查结果列表,从任何“<”开始删除元素并在下一个“>”结束。

答案 1 :(得分:1)

使用漂亮的汤库制作网页抓取工具并处理HTML标记。