Question

import urllib

data = urllib.urlopen("https://www.python.org/")
for line in data:
    line.strip()
    print line

我正在尝试制作网络抓取工具但是当我运行上面的代码时，一些HTML内容也会被打印出来。我只想要网页的文本部分和超链接

Answer 1

一个有点基本的解决方案是.split over“＆lt;”和“＆gt;”标签，然后只需检查结果列表，从任何“＆lt;”开始删除元素并在下一个“＆gt;”结束。

Answer 2

使用漂亮的汤库制作网页抓取工具并处理HTML标记。