Question

我有一个包含文字的文本

目录

前言1

第1章：对文本和WordNet基础进行标记7

将文本标记为句子8

将句子标记为单词10

使用正则表达式标记句子12

如果我的字符串是：

5c190000  RALO(Lb,25)

我想过使用开头和结尾的单词来提取句子但是有很多重复。

最重要的是获得输出的方法

使用正则表达式对句子进行标记

Answer 1

如果您准备预处理章节标题，删除页码和内容，请执行以下操作：

import difflib
contents = ["Tokenizing Text and WordNet Basics",
            "Tokenizing text into sentences",
            "Tokenizing sentences into words",
            "Tokenizing sentences using regular expressions"]
input = "Tokenzing sentence using expressions"
print (difflib.get_close_matches(input, contents, n=1))

会给你这个输出：

['Tokenizing sentences using regular expressions']

在python中查找字符串中存在的类似文本

1 个答案: