考虑this page上的文字。如果您查看源代码,您将看到主要文本与页面中的内容完全相同 - 没有HTML分区或任何其他方式可以明显找到段落中的段落/标签。
有没有办法自动识别和删除原始文本中标签的部分?
我注意到的一件事是,当我将文本编码为text = unicode(raw_text).encode("utf-8")
时,我可以看到一堆\ n&n;用于跳过行。但不是没有。 (这可能不是思考的有用方向,而只是一个想法)。
编辑:以下作品
text = unicode(raw_text).encode("utf-8")
y = [x for x in text.split("\n") if " " not in x]
final = " ".join(y)
答案 0 :(得分:0)
好吧,看完页面后,他们会用空格而不是标签字符“标签”;寻找标签将没有用。它看起来像是用5个空格标记的。
raw_text.replace(' ','')
替换所有5个空格的出现......
from re import sub
...
raw_text = sub(r' .*\n', '', raw_text)