Python在RTF中查找粗体文本

时间:2015-06-07 13:10:45

标签: python string rtf richtext

我正在处理一个巨大的富文本文件,其中每个条目都以粗体标题开头。将富文本文件导入Python并将其分割成任何看到粗体文本的行都非常有用。但是,我无法找到导入非纯文本的方法,并且已经求助于寻找其他方法来查找粗体文本的开始位置。

有没有办法让Python读取粗体文本的位置?

2 个答案:

答案 0 :(得分:0)

不,不容易。当然不在StackOverflow答案范围内。

问题在于RTF是一种专有格式,具有描述格式的特殊“语法”。

有些库试图阅读它,这里有所描述:Is there a Python module for converting RTF to plain text?

但是,即使其中一个人会为您阅读文本,也不太可能告诉您格式。毕竟,它会告诉你什么?

您最好的选择可能是找到RTF到HTML转换器(我指向的问题中至少提到了一个),然后使用BeautifulSoup查找粗体HTML元素。

答案 1 :(得分:0)

根据Wikipedia ...

{\rtf1\ansi{\fonttbl\f0\fswiss Helvetica;}\f0\pard
This is some {\b bold} text.\par
}

如果你想分成新的一行,我想你可以做.replace('{\\b ', '\n')并且大部分都在那里。如果您还想删除其他}

,请切换到正则表达式替换