使用pdfbox我可以从PDF获取文本。案文如下:
abcabcabs Phrase 1 123 abc 123 abcabcabs 123 abcabcabs 123 abc 123 Phrase 2 abcabcabs 123 abc 123
使用正则表达式我试图从Phrase 1
获取内容到Phrase 2
,但看起来我只能在一行中的单词之间获取文本。
我尝试使用these方法删除\n
,但我的文本文件总是使用上面的新行。
如何在一个没有线条的巨型字符串中获取文本并将其打印在屏幕上?
答案 0 :(得分:5)
PDFTextStripper stripper = new PDFTextStripper();
stripper.setLineSeparator(" ");
答案 1 :(得分:0)
"Phrase 1((?:.|\r?\n)*?)Phrase 2"
应该捕获"Phrase 1"
和"Phrase 2"
之间的所有内容,包括新行
请参阅此说明:http://regex101.com/r/vH9hV1
或者,你可以使用“dotall”标志,使.
匹配所有包括新行:http://regex101.com/r/aE9dP6