在python中查找字符串中存在的类似文本

时间:2017-05-28 13:27:14

标签: python string

我有一个包含文字的文本

  

目录

     

前言1

     

第1章:对文本和WordNet基础进行标记7

     

将文本标记为句子8

     

将句子标记为单词10

     

使用正则表达式标记句子12

如果我的字符串是:

5c190000  RALO(Lb,25)

我想过使用开头和结尾的单词来提取句子但是有很多重复。

最重要的是获得输出的方法

  

使用正则表达式对句子进行标记

1 个答案:

答案 0 :(得分:3)

如果您准备预处理章节标题,删除页码和内容,请执行以下操作:

import difflib
contents = ["Tokenizing Text and WordNet Basics",
            "Tokenizing text into sentences",
            "Tokenizing sentences into words",
            "Tokenizing sentences using regular expressions"]
input = "Tokenzing sentence using expressions"
print (difflib.get_close_matches(input, contents, n=1))

会给你这个输出:

['Tokenizing sentences using regular expressions']