exist-db如何访问pdf

时间:2018-07-24 14:42:51

标签: exist-db xquery-3.1

我确信这非常简单...我只是无法解决这个问题... exist-db文档在内容提取方面有点模糊... http://exist-db.org/exist/apps/doc/contentextraction

我有一个pdf文件,其中包含约162张高分辨率图像(pdf很大...),我不知道如何访问任何可能创建的图像...

请不要破坏我!我刚刚开始建立数据库(对于Uni版),我希望拥有一个传真版(因此,一个带有图像文件的标签和一个带有转录文本的标签)

我的目标是做类似于海德堡大学使用“ Welsche Gast Digital” http://digi.ub.uni-heidelberg.de/diglit/cpg389/0190/image做的事情 (选择的图像只是一个例子!) This pic 单击传真时,将打开“扫描”,而单击“转录”时,将打开转录的文本!

我对Xquery,Xpath和大多数与X相关的东西很陌生。我在existent-db中放有一个“工作设计”,正在寻找TEI来标记转写等,我担心我将不得不在这个问题上花很多时间... (这不是为我工作,而是为我指明正确的方向)

1 个答案:

答案 0 :(得分:1)

恐怕简短的答案就是根本没有。

在您的数据库中存储pdf,然后尝试从中提取图像是一种灾难的秘诀。相反,您应该使用源图像(不一定从pdf中提取),并将它们分别存储在集合中(例如资源/ img)。这些图像文件就是文档实际上在谈论的二进制资源。

您可能想看一下tei-publisher,以创建现有的数字版本,尤其是此demo app,以了解如何呈现带有文本转录部分的高分辨率传真。恐怕所有这些都比在浏览器中打开pdf还要复杂得多,但是 Welsche Gast Digital

也是如此。