C#搜索PDF

时间:2017-11-18 20:13:45

标签: c# pdf search

我使用iTextSharp从pdf中获取内容。我想允许用户搜索PDF,就像在任何搜索引擎上一样。搜索应返回最相关的结果。我编写了一个库,在文档上执行TF-IDF算法以返回相关结果。虽然这有效,但我觉得我可能正在重新发明轮子。

此用户应该能够搜索超过50,000个PDF。所以还有很多。我不想将PDF的全部内容存储在我的数据库中,因为我觉得这样做会非常昂贵。为了缓解这种情况,我编写了我的库,以便在计算TF-IDF时接受频率分布。这允许我在将PDF添加到系统时而不是每次执行搜索时读取PDF。

存在已经做过这类事情的图书馆吗?

1 个答案:

答案 0 :(得分:0)

Lucene.NET将满足您的需求。

还有像我们的'SearchUnit'那样的商业广告