应用错误收集

我需要做一个非常复杂的短语匹配。我的文件中有大量文本，每个文本超过1000个单词。

我要搜索的短语（searchphrase）是这样的：

投资并不意味着：一世。索赔仅由以下原因引起的： 1.商品销售商业合同国民或企业的一方服务对于另一方境内的企业，要么 2.与a有关的信贷延期商业交易，如贸易融资除了以前的贷款或索赔覆盖。

我想知道这个短语是否出现在我拥有的每个文件中。但是，这些文件的内容不会是该短语的精确副本。相反，文件（文本文件）将是一个大文档，其中包含以下段落：

但投资并不意味着对仅仅来自的资金的索赔专门用于销售商品或商品的商业交易一国境内的国家或法人提供的服务在该领土内的国家或法人的缔约方其他缔约方，为商业交易提供资金作为贸易融资，以及持续时间少于三的其他信贷年，以及授予国家或国有企业的信贷。

正如您所看到的，searchphrase在实际意义上与textfile中的此段非常相似。关键字也有相当多的重叠。因此，我应该得到一个匹配。

我应该尝试使用哪种算法来编写代码？预编码模块是否可用于执行此任务的任何位置？