我有一个包含超过6000行的文本,但是我已经从PDF中复制了它,我不得不删除所有换行符,因为在PDF中每条可见行的末尾都有额外的换行符。
所以现在我最终得到了像1. textextexttexttexttext2. texttexttexttexttext3. texttexttexttext4. texttexttexttext ... texttexttext199. texttexttext200. texttexttext
现在的问题是如何将换行符仅放在数字前面,并在它们后面加一个点和空格,以便得到:
1. textextexttexttexttext
2. texttexttexttexttext
3. texttexttexttext
4. texttexttexttext
... texttexttext
199. texttexttext
200. texttexttext
将算法用于PHP或Java会很好。
答案 0 :(得分:0)
替换正则表达式
(\d+\. )
通过
\n$1
或者
(?=\d+\. )
通过
\n
答案 1 :(得分:-1)
双线换行听起来像是一个窗口回车+换行组合(CR + LF)(asc 13,asc 10)。也许采用原始副本+粘贴文本,并将\r\n
的所有实例替换为\n