Question

link text我想在SQL Server 2008中使用内置于Windows 2008 Server R2的TIFF IFilter和全文搜索...也是R2。

我已经通过服务器管理器安装了过滤器，并更新了“强制TIFF IFilter为TIFF文档中的每个页面执行OCR”计算机配置中的本地组策略设置 - ＆gt;管理模板 - ＆gt; OCR为“已启用。”

我还创建了一个全文目录和一个名为“FileData”的表，如下所示：

CREATE TABLE [FileServer].[FileData](
 [FileDataId] [int] IDENTITY(1,1) NOT NULL,
 [FileGUID] [uniqueidentifier] ROWGUIDCOL  NOT NULL,
 [Data] [varbinary](max) FILESTREAM  NOT NULL,
 [Extension] [nvarchar](100) NULL,
 [Filename] [nvarchar](256) NULL,
 [Path] [nvarchar](256) NULL,
 CONSTRAINT [PK_FileData_FileDataId] PRIMARY KEY CLUSTERED 
(
 [FileDataId] ASC
)WITH (PAD_INDEX  = OFF, STATISTICS_NORECOMPUTE  = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS  = ON, ALLOW_PAGE_LOCKS  = ON) ON [PRIMARY] FILESTREAM_ON [FILES],
 CONSTRAINT [UX_File_FileGUID] UNIQUE NONCLUSTERED 
(
 [FileGUID] ASC
)WITH (PAD_INDEX  = OFF, STATISTICS_NORECOMPUTE  = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS  = ON, ALLOW_PAGE_LOCKS  = ON) ON [PRIMARY]
) ON [PRIMARY] FILESTREAM_ON [FILES]

GO

SET ANSI_PADDING OFF
GO

ALTER TABLE [FileServer].[FileData] ADD  CONSTRAINT [DF_FileData_FileGUID]  DEFAULT (newid()) FOR [FileGUID]
GO

ALTER TABLE [FileServer].[FileData] ADD  CONSTRAINT [DF_FileData_FileData]  DEFAULT (0x) FOR [Data]
GO

当我将文件插入该表格时，如PDF或文字DOC，我可以稍后使用全文搜索命中文件中的关键字：

我制作了一个巨大的TIFF文件，文本非常清晰（1024 x 768 ...约12个单词）并将其导入到FileData表中。我可以找到其中的每一个字。

SELECT [Path], [Filename], [Data]
FROM [FileServer].[FileData]
WHERE FREETEXT(*, 'Jason') and FREETEXT(Extension, 'tif');

但是，当我使用“真实”TIFF文件（如制造商的数据表）时，我会在搜索关键字时获得ZERO结果。我不知道为什么，并且没有太多关于SQL Server的在线故障排除。

我尝试用各种压缩保存.TIFF文件，没有压缩等等......我只是没有运气。我的测试文件中的文字是CRYSTAL清晰但仍然非常大。我无法想象文件清晰度是问题所在，尽管我认为这是可能的。

为了让你有比较的东西，我拍摄了以下两张图片并导入它们：

WORKING SAMPLE FILE BROKEN SAMPLE FILE

工作样本的结果非常好。这些是全文索引中工作示例的关键字： $ 3.50 © 0004 08 1989年 2010 21 21时35分42秒 235 282 3116 3702 40 48109 89 盛产吸收抽象伴随着后天法案行动好处机构算法算法已经量阿姆斯特丹分析安出现应用乔木 arnficioj artficia1 分配 B.V. 基于基础布克旅桶建造 BV 功能小心改变特点跳棋分类 classtfier 关闭认知比较竞争复杂复杂性复杂电脑面对迷惑考虑持续不断一直做作信用治愈 D.E. 数据德正经定义定义设计设计制定发现讨论烦扰的中生态经济 EECS 功夫爱思唯尔文件结束工程环境环境呃甚至事件例展示经验表达现存扩展面对面孔可行文件射击第一流以下格式游戏生成通用遗传给目标戈德堡好 holiadd 荷兰然而假设图片沉浸免疫的撞击隐式不精确信息情报利益干预介绍不相干 J.H. JH 日志磅。大磅学习学习寿命长机哺乳动物哺乳动物哺乳动物大规模信息 MI 密歇根州新 nn0004 nn08 nn1989 nn2010 nn21 nn235 nn282 nn3116 nn3702 nn3d5 $ nn40 nn48109 nn89 吵北号小说新奇获得经常一操作选项本来外拥有纸平行通过图案清偿允许永动的永玩播放机播放可能漂亮问题提供出版者出版商很快随机很少真实实际加强反复转载要求视网膜评论修改机器人规则规则科学序列套显著简单只是小疏系统系统标记技术理论雷神斗嘴时间 tt2135 两次曲折二一般美国。大学上我们美国视觉第一卷无奇迹世界

但破碎样本的结果只是......好吧，空缺。实际的TIFF图片中没有一个单词： 08 2010 21 21时49分22秒文件结束文件格式图片 nn08 nn2010 nn21 标记斗嘴 tt2149

如果有人对接下来的尝试有任何想法，我会全力以赴。

Answer 1

尝试将非工作图像转换为黑白图像，并查看是否可识别更多单词。

<强>加

尝试使用IrfanView（或任何图像工具）将第二张图像的DPI设置为300.然后再试一次。

显然，这些故障排除步骤并非永久解决方案，它们只是帮助隔离问题。

Answer 2

rwong是对的。您需要隔离问题。

并非所有OCR引擎都可以处理Color TIFF图像并且更喜欢B / W.我猜测OCR引擎甚至没有处理你的非工作页面，只是发出了一个你看不到的错误信息。

如上所述，尝试将文件另存为黑白TIFF图像。
将文件另存为JPEG并尝试将图像识别为JPEG。

我通过我的OCR运行了非工作图像，并且能够正确提取大部分文本，因此解决方案不是主要问题。

Answer 3

嗯，事实证明实际问题是图像的尺寸。 ITFF IFilter中的OCR甚至没有试图处理它......太大了。我必须通过反复试验发现这一点，并且找不到任何说明传入TIFF的最大大小/ DPI的文档。有人知道这些规格吗？本文似乎有一些信息：support.microsoft.com/kb/837847但是特定于Sharepoint，我没有时间搞乱设置以查看它是否有效。另外，我真的需要删除大小上限。那里的想法？

Answer 4

我找到了一些有趣的东西

我使用C＃do

                    Image tiffFile = Image.FromFile(TiffPath);

                    resultFilePath = Path.Combine(tempFolder, Path.GetFileName(TiffPath));

                    tiffFile.Save(resultFilePath);

并使用把新的tiff文件放在数据库中，这是工作，我不知道为什么，但解决了我的问题

TIFF IFilter无法正确读取VARBINARY列中的文本

4 个答案: