这是基本问题:我有大约10,000个包含数据块的word文档。每个块都有编号,并且还有一个附带的图像。我需要以某种方式将这些单独的块存储到数据库中作为图像(文本会很棒,但请阅读下面的注释),而不需要编号。
我可以通过### QUESTIONSTART ###,### QUESTIONEND ###或其他方式让打字员标记块的开头和结尾。 我正在尝试获取该文档,将其转换为大图像,查找这些标记,将标记之间的部分提取为图像,然后转到下一个块。
我一直在寻找一些API,一旦我弄清楚如何获取每个开始/结束标记的坐标,我认为我肯定可以裁剪图像。有什么建议?我不想写一个像素匹配器必须去O(没有块* n ^ 2)
注意:这些块包含复杂的方程/数学类型的东西,因此图像。我没有让1000名打字员接受TeX培训并重新输入整个交易。 OCR还没有削减它。
答案 0 :(得分:0)
我不明白你的所有问题,但在我的印象中,Tika可以帮助你。
答案 1 :(得分:0)
如果您可以让打字员为10,000个文件添加块标记,为什么打字员不能
您可以提出一个对您和打字员有意义的图像命名方案。
然后,您可以使用程序从磁盘驱动器中收集图像并将其加载到数据库中。