Question

使用pdfbox我可以从PDF获取文本。案文如下：

abcabcabs  Phrase 1 123 abc 123

abcabcabs 123 abcabcabs 123 abc 123  Phrase 2 abcabcabs 

123 abc 123

使用正则表达式我试图从Phrase 1获取内容到Phrase 2，但看起来我只能在一行中的单词之间获取文本。我尝试使用these方法删除\n，但我的文本文件总是使用上面的新行。

如何在一个没有线条的巨型字符串中获取文本并将其打印在屏幕上？

Answer 1

PDFTextStripper stripper = new PDFTextStripper();
stripper.setLineSeparator(" ");

Answer 2

"Phrase 1((?:.|\r?\n)*?)Phrase 2"应该捕获"Phrase 1"和"Phrase 2"之间的所有内容，包括新行请参阅此说明：http://regex101.com/r/vH9hV1

或者，你可以使用“dotall”标志，使.匹配所有包括新行：http://regex101.com/r/aE9dP6