我有一个包含以下格式的不同作者的多个实例的pdf: 姓氏,名字,城市,(国家代码)
我想索引它们(使用正则表达式),所以你会得到类似的东西: Doe,John,纽约市,(美国) - 页:1,3,5,6
我尝试做的是在Adobe Acrobat DC中使用JavaScript作为第一步。使用this.numPages,this.getPageNumWords和this.getPageNthWord()保存各个页面中的所有单词。除了这个方法不包括国家代码周围的括号(对正则表达式真的很有帮助)。
我正在考虑的其他选项是导出到MS Word或RTF并尝试使用正则表达式。但也许有更好的方法来解决这个问题。