使用BeautifulSoup删除分页符

时间:2016-11-06 20:38:01

标签: python html beautifulsoup nltk

我正在使用BeautifulSoup从html文档中提取文本,然后将其传递给NLTK进行一些分析。 HTML文件中包含分页符。分页符导致连续段落被分割。

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html5lib")
txt = (soup.get_text())
print(txt)

拆分段落如下所示:

该文件包含几个段落。每个段落都包含几个

-6 -

用词语构成的句子。这些单词由字母组成。

关于如何删除分页符并将完整段落注释掉的想法?

1 个答案:

答案 0 :(得分:0)

您可以使用以下正则表达式从文本字符串中删除,如下所示:\ n \ n ... -number- \ n \ n ...

import re
s=re.sub(r'\n+-[0-9]+-\n+', '', txt)

如果有帮助,请告诉我