PDF到HTML转换/正则表达式替换和Python中的concat匹配

时间:2013-04-29 12:49:27

标签: python regex pdf-to-html

我已经写了一个pdf到Excel转换器。 转换是由linux命令pdftohtml完成的,但有时它看起来很奇怪:

<b>1 </b><br>
In<br>
I t<br>
n r<br>
t o<br>
r d<br>
o u<br>
d c<br>
u t<br>
c i<br>
t o<br>
i n<br>
o  <br>
<i>Headline1: </i>Text1 <br>
text<br>
<b>1.1 </b><br>
Pu<br>
P r<br>
u p<br>
r o<br>
p s<br>
o e<br>
s  <br>
<i>Headline2: </i>Text2 <br>
text<br>

显然它应该是这样的:

<b>1 </b>Introduction<br>
<i>Headline1: </i>Text1 <br>
text<br>
<b>1.1 </b>Purpose<br>
<i>Headline2: </i>Text2 <br>
text<br>

我使用了多种方法,例如获取最后一个字符,稍后通过

连接
<b>((?:[\d]+)(?:[.][\d]+)*)\s*</b><br>\s(\w{2})<br>\s(\w\s(\w)+<br>\s)*(\w)\s\s<br>\s<i>

但这不会返回每个字母。所以什么是错的,为什么不归还这不是所有的比赛? 我还尝试更换<br></b>之间的每个<i>标记

(?=</b>.*)(<br>)(?=.*<i>)

但它也很有效。

这些方法是对还是有更好的方法?

0 个答案:

没有答案