如何查找包含给定文本片段的文档和页面(pdf)

时间:2019-03-12 19:39:00

标签: search text indexing full-text-search approximation

我有一组很长的pdf文档(主要包含文本和图形)和一个被剪断的文本(几行)。 是否有一些库可以帮助我找到包含已截断给定文本的文档+页面。

重要的是,要对文档进行某种索引,因为进行搜索时,原始文档不再可用。目的是通过文档和页面来查找“文本片段的来源”。

其他要求: -离线使用 -轻度近似功能(也许文本片段包含拼写错误,错字等)。

0 个答案:

没有答案