使用正则表达式的pdf中的索引关键字

时间:2018-01-10 15:37:02

标签: javascript pdf indexing

我有一个包含以下格式的不同作者的多个实例的pdf: 姓氏,名字,城市,(国家代码)

我想索引它们(使用正则表达式),所以你会得到类似的东西: Doe,John,纽约市,(美国) - 页:1,3,5,6

我尝试做的是在Adobe Acrobat DC中使用JavaScript作为第一步。使用this.numPages,this.getPageNumWords和this.getPageNthWord()保存各个页面中的所有单词。除了这个方法不包括国家代码周围的括号(对正则表达式真的很有帮助)。

我正在考虑的其他选项是导出到MS Word或RTF并尝试使用正则表达式。但也许有更好的方法来解决这个问题。

0 个答案:

没有答案