正则表达式,用于删除文档中的页码

时间:2015-04-12 08:05:48

标签: regex replace ms-word find openoffice.org

我正在尝试使用Microsoft Word或OpenOffice和正则表达式来删除文档中的页码。我的文件是一个看起来像

的电子书
2
Words
More words.

More words.

More

3

words.

有些休息时间是中等。我尝试在Python中执行此操作,但使用纯文本文件会删除格式,例如我要保留的斜体。在OpenOffice Writer中,正则表达式:

^[0-9]$

会找到0到9之间的任何数字,虽然用500替换9仍然只能达到9.但是,这只能得到数字本身而不是段落。正则表达式

$

可以得到段落,但我不知道如何将两者合并,或者超过9号。最终我只想删除这些页码和它们的分段符号。非常感谢任何帮助!

2 个答案:

答案 0 :(得分:0)

您可以使用^[0-9]+$|$来匹配更多数字并超越9。

答案 1 :(得分:0)

我想通了:)。首先获得此扩展程序:http://extensions.openoffice.org/en/project/alternative-dialog-find-replace-writer-altsearch。然后使用正则表达式     \ P 1 [0-9] + $ \ P