将pdf导出到json

时间:2013-08-15 13:24:10

标签: xml json pdf svg export

我有一个带有单词搜索方块表的pdf文档。它看起来像这样:

screenshot

我想将单词搜索网格中的所有单词以某种方式导出为xml或json格式。是否有为此类任务构建的软件? 或者如何构建一个simle脚本来做到这一点,它有可能吗?

我使用word搜索软件来生成此网格,但它只导出为SVG和PDF。

我想要达到的目标是:对于每个单词,我想要网格中的起始坐标,也可能是结束坐标,或者单词的方向可能是好的。我能以某种方式将这些东西导出到json / xml

2 个答案:

答案 0 :(得分:1)

这可能会有所帮助,它只能在Windows和Linux上使用

https://code.google.com/p/pdf2json/

答案 1 :(得分:1)

我原本以为使用SVG版本的导出将是一种更简单的方法。幸运的是,单词列表将只是在文件的一部分中组合在一起的<text>元素的列表。从那里编写一个小脚本将其转换为JSON会很简单。