包含150M页面的100,000个PDF的文本索引

时间:2012-08-04 00:46:05

标签: sql-server database pdf indexing

有一个有趣的问题,我正在寻找合适的解决方案。我们有大约100,000份不同大小的PDF文档,平均大小为150页。它目前位于RAID6服务器上,也可以在异地备份。我们需要索引总共6.5TB的PDF。

我们目前正在将PDF转换为文本文件,并将它们存储在服务器上的类似文件夹结构中。然后需要将这些索引编入索引并进行搜索,包括返回原始文件夹的链接。文本文件使用与PDF相同的名称,并在其上添加了其他命名约定。如果我的估计是正确的,那么这将使其接近40亿个需要编入索引的单词。

索引这些文件的合适解决方案是什么?

4 个答案:

答案 0 :(得分:1)

我会看看SOLR。我们目前正在考虑将其用作文档的全文搜索引擎。它被广泛使用并得到很好的支持。

答案 1 :(得分:1)

如果我的数学合适,那就是400K一页。这是一个很大的页面大小。

您需要使用索引?

如果你需要接近和短语,那么需要将它们全部索引,并像SOLR一样产品。通过TIKI,我认为你可以索引PDF。

另一种选择是使用SQL全文。但是你需要构建一个前端应用程序。 SOLR是和app和引擎的地方。

您需要索引每个单词还是仅对单词进行索引?如果只需要基本搜索,那么英语中只有大约200,000个独特单词。如果你使用像搬运工的阻塞器来阻止他们这个数字会下降。然后抛出像“the”这样的停止词。然后你需要和正确的名称电子邮件和不在字典中的其他单词。我手动索引文档,甚至一个非常大的集合最高为300,000(如果它是真正的单词 - ocr将杀死该数字)。如果文档有2,000个唯一单词,则交叉索引仅为20,0000,000。您可以使用REGEX解析单词。我知道它看起来很难看但我在SQL和.NET中手动执行此操作。没有接近或短语搜索,但它占地面积小,速度快。 (SQL Azure没有全文)

答案 2 :(得分:0)

查看Google Search Appliance。为什么重新发明轮子?

答案 3 :(得分:0)

如果没有令人信服的理由为此使用SQL数据库,我会考虑使用专门的搜索引擎。

大多数全文搜索软件都可以阅读PDF文件,而无需将其转换为文本文件。我过去成功使用过dtSearch