模糊匹配大文本中的段落

时间:2013-03-26 18:44:00

标签: information-retrieval fuzzy-search plagiarism-detection

我需要做一个非常复杂的短语匹配。 我的文件中有大量文本,每个文本超过1000个单词。

我要搜索的短语(searchphrase)是这样的:

  

投资并不意味着:   一世。索赔仅由以下原因引起的:   1.商品销售商业合同   国民或企业的一方服务   对于另一方境内的企业,   要么   2.与a有关的信贷延期   商业交易,如贸易融资   除了以前的贷款或索赔   覆盖。

我想知道这个短语是否出现在我拥有的每个文件中。但是,这些文件的内容不会是该短语的精确副本。相反,文件(文本文件)将是一个大文档,其中包含以下段落:

  

但投资并不意味着对仅仅来自的资金的索赔   专门用于销售商品或商品的商业交易   一国境内的国家或法人提供的服务   在该领土内的国家或法人的缔约方   其他缔约方,为商业交易提供资金   作为贸易融资,以及持续时间少于三的其他信贷   年,以及授予国家或国有企业的信贷。

正如您所看到的,searchphrase在实际意义上与textfile中的此段非常相似。关键字也有相当多的重叠。因此,我应该得到一个匹配。

我应该尝试使用哪种算法来编写代码?预编码模块是否可用于执行此任务的任何位置?

0 个答案:

没有答案