我有成千上万的页面需要扫描和记录

时间:2009-11-03 20:01:34

标签: .net mysql database pdf

我有很多想要扫描的文件。每个文档都有大约10个不同的元数据标签,我希望能够通过这些标签进行搜索。

所以也许我想要一个巨大的扫描仪,扫描所有内容,但那么我如何标记evverything?我想我会把它们变成pdf文件,我会把它们放在一个mysql数据库中?做这个的最好方式是什么。我还想制作一个GUI来搜索这个数据库。我不想OCR我想附加的所有文件,如每个文件的10个关键字。

请向我建议一个系统或如何执行此操作的程序。我希望这可能是从多台计算机上搜索的

需要什么样的编程?

4 个答案:

答案 0 :(得分:5)

我最近帮助我的妻子为她30年的创作写作做了数字备份。她在数百个小型笔记本中手写了大约15,000页。

我们尝试使用平板扫描仪,但笔记本电脑不平放,扫描仪扫描页面需要60秒,有些笔记本电脑更大,而且不适合她的信纸尺寸平板扫描仪。我知道存在更大,更快的扫描仪,但它仍然太笨拙和耗时。

我们最终安装在一个小型三脚架上的数码相机,直接指向书本打开的桌子。使用相机的AC适配器,这样您就可以连续工作几个小时而无需更换电池。有些相机甚至可以通过计算机上的GUI进行操作,因此您不必冒按控制器的风险。如果你方便地设置了这一切,你可以快速翻页并每隔几秒拍一张照片。这个解决方案要快得多。

我们发现最好拍摄一本书的所有照片,然后作为一项单独的任务,将它们卸载到计算机上并对它们进行分类和归档。仅仅因为它会减慢我们从相机UI更改为每个页面的编目UI。

大多数人都不愿意在RDBMS中存储大图像,他们只是将图像的文件名存储为字符串,然后为标题,日期和关键字等其他属性添加列。例外情况是您需要图像遵守ACID交易等,这可能不适用于您的情况。

如果您不打算进行OCR,我想不出自动检测关键字的方法。您必须手动输入或从列表中选择它们。但同样,在捕获图像后,最好将其作为“后处理”任务完成。

答案 1 :(得分:1)

您最好的选择可能是查看一些具有您想要功能的开源文档管理系统,并了解他们是如何做到的。这种功能很常见。

答案 2 :(得分:1)

为什么不利用Windows搜索功能和Windows功能为文件分配类别和关键字而不是数据库。

语法信息: http://www.microsoft.com/windows/products/winfamily/desktopsearch/technicalresources/advquery.mspx

如何在WPF应用程序中使用搜索: http://www.codeproject.com/KB/WPF/Vista_Search_in_WPF.aspx

修改其他详细信息 好的,这是概念,你正在扫描的所有这些文件,它们都被数字化,然后你有一些命名它们的过程,并将数据放在它们的META数据中(类别,关键字等) )

对于服务,您需要撰写一个包含Windows ServiceTHREADPOOL。您想要的是,对于每个进入的SEARCH请求,您都会分离一个新线程来执行实际搜索。线程池将使系统不会过载,并基本上为您管理这些线程。

工作计算机上的应用程序可能会通过向服务器上的MS Message Queue发送消息来发出搜索请求,然后等待服务的响应(同样可能通过消息队列,但是你这个沟通有很多不同的选择)。当此响应返回时,您将使用文件名/位置列表更新UI,供用户查看,决定等。

答案 3 :(得分:1)

该项目有几个方面可以单独解决:

<强>扫描即可。纸张可以分开并通过送纸器送入吗?如果是,请选择fujitsu fi-6140等文档扫描仪。效果很好,每天最多3000页。请注意,还有很多工作要做。

如果没有,请进行相机设置。查看http://diybookscanner.org/和类似的专业设置。

预计每10到100页投入一分钟,具体取决于系统。

<强> OCR 即可。适用于印刷文字。使用图片中的文字转换为pdf,因此您无需校对。这意味着您可以在pdf中看到扫描的图片,其中叠加了文本文本。如果打印此文档,它实际上是一个复印件,但您可以复制并粘贴其中的文本。

数据存储和检索。解决方案很大程度上取决于您对数据的计划。

有多少人应该访问它? 如果单独使用,文件系统解决方案可能没问题。 如果很多,请考虑像Dspace或Greenstone数字图书馆这样的数字图书馆系统。