我有一个包含文字的文本
目录
前言1
第1章:对文本和WordNet基础进行标记7
将文本标记为句子8
将句子标记为单词10
使用正则表达式标记句子12
如果我的字符串是:
5c190000 RALO(Lb,25)
我想过使用开头和结尾的单词来提取句子但是有很多重复。
最重要的是获得输出的方法
使用正则表达式对句子进行标记
答案 0 :(得分:3)
如果您准备预处理章节标题,删除页码和内容,请执行以下操作:
import difflib
contents = ["Tokenizing Text and WordNet Basics",
"Tokenizing text into sentences",
"Tokenizing sentences into words",
"Tokenizing sentences using regular expressions"]
input = "Tokenzing sentence using expressions"
print (difflib.get_close_matches(input, contents, n=1))
会给你这个输出:
['Tokenizing sentences using regular expressions']