我有一个应用程序,我允许用户上传文件,主要是PDF和Word文档。这些文件存储在数据库的varbinary字段中。对于它的价值,无论用户如何通过Web或Windows Forms应用程序或任何其他表示层访问应用程序,我都需要提供这些文件。
有没有办法搜索这些字段的原始文本内容?例如,如果我上传简历,我希望用户能够搜索C#并能够查看varbinary字段的内容以获取指定的文本。
另外,如果有更好的策略来处理这个问题,我愿意接受它。
答案 0 :(得分:3)
我会说使用SQL Server是错误的工作工具(搜索方式),因为它无法原生解析存储在二进制文档中的文本。
我建议查看类似Lucene.NET(Lucene搜索引擎的.NET端口...最初用Java编写)的内容,这样您就可以在文档上传后轻松搜索文档。
您应该能够构建一个解决方案,允许您在SQL Server中保留文档存储,但使用Lucene.NET来索引和搜索您存储在那里的文档。
答案 1 :(得分:2)
您需要一些代码层来提取类型并了解格式。对于SQL,它只是原始数据