使用pdfbox从输出文本中删除新行

时间:2013-11-25 17:30:06

标签: java regex string pdfbox

使用pdfbox我可以从PDF获取文本。案文如下:

abcabcabs  Phrase 1 123 abc 123

abcabcabs 123 abcabcabs 123 abc 123  Phrase 2 abcabcabs 

123 abc 123

使用正则表达式我试图从Phrase 1获取内容到Phrase 2,但看起来我只能在一行中的单词之间获取文本。 我尝试使用these方法删除\n,但我的文本文件总是使用上面的新行。

如何在一个没有线条的巨型字符串中获取文本并将其打印在屏幕上?

2 个答案:

答案 0 :(得分:5)

PDFTextStripper stripper = new PDFTextStripper();
stripper.setLineSeparator(" ");

答案 1 :(得分:0)

"Phrase 1((?:.|\r?\n)*?)Phrase 2"应该捕获"Phrase 1""Phrase 2"之间的所有内容,包括新行 请参阅此说明:http://regex101.com/r/vH9hV1

或者,你可以使用“dotall”标志,使.匹配所有包括新行:http://regex101.com/r/aE9dP6