Question

考虑this page上的文字。如果您查看源代码，您将看到主要文本与页面中的内容完全相同 - 没有HTML分区或任何其他方式可以明显找到段落中的段落/标签。

有没有办法自动识别和删除原始文本中标签的部分？

我注意到的一件事是，当我将文本编码为text = unicode(raw_text).encode("utf-8")时，我可以看到一堆\ n＆n;用于跳过行。但不是没有。（这可能不是思考的有用方向，而只是一个想法）。

编辑：以下作品

text = unicode(raw_text).encode("utf-8")
y = [x for x in text.split("\n") if "     " not in x]
final = " ".join(y)

Answer 1

好吧，看完页面后，他们会用空格而不是标签字符“标签”;寻找标签将没有用。它看起来像是用5个空格标记的。

raw_text.replace('     ','')

替换所有5个空格的出现......

from re import sub

...

raw_text = sub(r'     .*\n', '', raw_text)