我有一个用例,我需要从长文本中提取第一段。
需要知道是否可以使用python在NLP中完成?
是否有任何插件支持?
答案 0 :(得分:0)
你真的不需要插件。根据文本的存储方式,段落用1表示\n
或2表示\n\n
。除此之外,问题是如果你的文本是以字符串形式阅读的话,你的文本是否存储在火中。
如果是字符串:
paragraph = text.split(sep)[0]
其中sep可以是\n
或\n\n
如果它存储为文件,如果您的分隔符为\n
:
with open(filename) as f:
paragraph = f.readline()
如果它存储为文件,如果您的分隔符为\n\n
,则实际上需要多行:
paragraph = ''
with open(filename) as f:
while True:
line = f.readline()
if line == '\n':
break
paragraph += line.strip('\n')