Question

我正在使用BeautifulSoup从html文档中提取文本，然后将其传递给NLTK进行一些分析。 HTML文件中包含分页符。分页符导致连续段落被分割。

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html5lib")
txt = (soup.get_text())
print(txt)

拆分段落如下所示：

该文件包含几个段落。每个段落都包含几个

-6 -

用词语构成的句子。这些单词由字母组成。

关于如何删除分页符并将完整段落注释掉的想法？

Answer 1

您可以使用以下正则表达式从文本字符串中删除，如下所示：\ n \ n ... -number- \ n \ n ...

import re
s=re.sub(r'\n+-[0-9]+-\n+', '', txt)

如果有帮助，请告诉我