识别从原始文本中选中的部分

时间:2015-05-16 04:37:14

标签: python python-2.7 text text-analysis

考虑this page上的文字。如果您查看源代码,您将看到主要文本与页面中的内容完全相同 - 没有HTML分区或任何其他方式可以明显找到段落中的段落/标签。

有没有办法自动识别和删除原始文本中标签的部分?

我注意到的一件事是,当我将文本编码为text = unicode(raw_text).encode("utf-8")时,我可以看到一堆\ n&n;用于跳过行。但不是没有。 (这可能不是思考的有用方向,而只是一个想法)。

编辑:以下作品

text = unicode(raw_text).encode("utf-8")
y = [x for x in text.split("\n") if "     " not in x]
final = " ".join(y)

1 个答案:

答案 0 :(得分:0)

好吧,看完页面后,他们会用空格而不是标签字符“标签”;寻找标签将没有用。它看起来像是用5个空格标记的。

raw_text.replace('     ','')

替换所有5个空格的出现......

from re import sub

...

raw_text = sub(r'     .*\n', '', raw_text)