标签: search text indexing full-text-search approximation
我有一组很长的pdf文档(主要包含文本和图形)和一个被剪断的文本(几行)。 是否有一些库可以帮助我找到包含已截断给定文本的文档+页面。
重要的是,要对文档进行某种索引,因为进行搜索时,原始文档不再可用。目的是通过文档和页面来查找“文本片段的来源”。
其他要求: -离线使用 -轻度近似功能(也许文本片段包含拼写错误,错字等)。