如何使用分隔符分隔大文本

时间:2016-06-05 16:13:02

标签: javascript regex node.js

我想知道一个更好的解决方案来解决我的问题。我从pdf文件中提取了大量文本(1500页)。在PDF中,我有几个文档,我需要使用数组分开,例如:

let docs = [
  [], <- doc1
  [], <- doc2
  [], <- doc3

  ... and so on...
];

目前,我正在使用正则表达式来识别开头和结尾。

let result = pattern.exec(REGEX);
docs.push(result[1]);

大多数文档非常相似,具有动态信息的固定字段。但是其中一些最终会有所不同,这导致正则表达式拉出两个文档而不是一个。

有更好的方法吗?或者我是否需要添加哪个可能的分隔符(文本的开头和结尾)?

感谢。

0 个答案:

没有答案