我想知道一个更好的解决方案来解决我的问题。我从pdf文件中提取了大量文本(1500页)。在PDF中,我有几个文档,我需要使用数组分开,例如:
let docs = [
[], <- doc1
[], <- doc2
[], <- doc3
... and so on...
];
目前,我正在使用正则表达式来识别开头和结尾。
let result = pattern.exec(REGEX);
docs.push(result[1]);
大多数文档非常相似,具有动态信息的固定字段。但是其中一些最终会有所不同,这导致正则表达式拉出两个文档而不是一个。
有更好的方法吗?或者我是否需要添加哪个可能的分隔符(文本的开头和结尾)?
感谢。