import urllib
data = urllib.urlopen("https://www.python.org/")
for line in data:
line.strip()
print line
我正在尝试制作网络抓取工具但是当我运行上面的代码时,一些HTML内容也会被打印出来。我只想要网页的文本部分和超链接
答案 0 :(得分:1)
一个有点基本的解决方案是.split over“<”和“>”标签,然后只需检查结果列表,从任何“<”开始删除元素并在下一个“>”结束。
答案 1 :(得分:1)
使用漂亮的汤库制作网页抓取工具并处理HTML标记。