我正在使用BeautifulSoup从html文档中提取文本,然后将其传递给NLTK进行一些分析。 HTML文件中包含分页符。分页符导致连续段落被分割。
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html5lib")
txt = (soup.get_text())
print(txt)
拆分段落如下所示:
该文件包含几个段落。每个段落都包含几个
-6 -
用词语构成的句子。这些单词由字母组成。
关于如何删除分页符并将完整段落注释掉的想法?
答案 0 :(得分:0)
您可以使用以下正则表达式从文本字符串中删除,如下所示:\ n \ n ... -number- \ n \ n ...
import re
s=re.sub(r'\n+-[0-9]+-\n+', '', txt)
如果有帮助,请告诉我