应用错误收集

我想知道一个更好的解决方案来解决我的问题。我从pdf文件中提取了大量文本（1500页）。在PDF中，我有几个文档，我需要使用数组分开，例如：

let docs = [
  [], <- doc1
  [], <- doc2
  [], <- doc3

  ... and so on...
];

目前，我正在使用正则表达式来识别开头和结尾。

let result = pattern.exec(REGEX);
docs.push(result[1]);

大多数文档非常相似，具有动态信息的固定字段。但是其中一些最终会有所不同，这导致正则表达式拉出两个文档而不是一个。

有更好的方法吗？或者我是否需要添加哪个可能的分隔符（文本的开头和结尾）？

感谢。