我想基于现有资料(PDF,PPT,Word文档等)构建动态课程内容系统
我的基本要求是这些文件中的semantic search
来提取内容。
我询问.net库或API在我的系统中使用。
答案 0 :(得分:2)
SQL Server 2012具有语义搜索的新功能以及全文搜索功能,该功能也得到了相应的改进。它可能会或可能不会满足您的要求,但绝对值得关注 以下是您可以从以下开始的示例:http://svenaelterman.wordpress.com/2012/04/14/step-by-step-enabling-semantic-search-on-sql-server-2012/
答案 1 :(得分:1)
我知道commercial dtSearch的界面允许您使用“语义搜索”或“同义词搜索”进行索引和搜索,但也可以使用语音和其他。 dtSearch使用WordNet库。
dtSearch非常强大,在一个dll中提供完整引擎,并且可以搜索模糊,同义词/概念/同义词,布尔,短语,通配符,邻近, 词干,数字范围,自然语言和其他...
可以直接索引PDF,Word和大多数已知文档。
现在,如果您创建自定义索引器,则可以download the WordNet数据库并使用它 对于用户搜索的每个单词,您可以使用WordNet数据库和同义词库找到相关单词。
答案 2 :(得分:1)
看看Lucene.Net ......有点学习曲线,但应该很好地完成这个技巧。我目前正在迁移到这个平台,远离SQL 2012。