我需要做一个非常复杂的短语匹配。 我的文件中有大量文本,每个文本超过1000个单词。
我要搜索的短语(searchphrase)是这样的:
投资并不意味着: 一世。索赔仅由以下原因引起的: 1.商品销售商业合同 国民或企业的一方服务 对于另一方境内的企业, 要么 2.与a有关的信贷延期 商业交易,如贸易融资 除了以前的贷款或索赔 覆盖。
我想知道这个短语是否出现在我拥有的每个文件中。但是,这些文件的内容不会是该短语的精确副本。相反,文件(文本文件)将是一个大文档,其中包含以下段落:
但投资并不意味着对仅仅来自的资金的索赔 专门用于销售商品或商品的商业交易 一国境内的国家或法人提供的服务 在该领土内的国家或法人的缔约方 其他缔约方,为商业交易提供资金 作为贸易融资,以及持续时间少于三的其他信贷 年,以及授予国家或国有企业的信贷。
正如您所看到的,searchphrase在实际意义上与textfile中的此段非常相似。关键字也有相当多的重叠。因此,我应该得到一个匹配。
我应该尝试使用哪种算法来编写代码?预编码模块是否可用于执行此任务的任何位置?