Question

我正在处理一个巨大的富文本文件，其中每个条目都以粗体标题开头。将富文本文件导入Python并将其分割成任何看到粗体文本的行都非常有用。但是，我无法找到导入非纯文本的方法，并且已经求助于寻找其他方法来查找粗体文本的开始位置。

有没有办法让Python读取粗体文本的位置？

Answer 1

不，不容易。当然不在StackOverflow答案范围内。

问题在于RTF是一种专有格式，具有描述格式的特殊“语法”。

但是，即使其中一个人会为您阅读文本，也不太可能告诉您格式。毕竟，它会告诉你什么？

您最好的选择可能是找到RTF到HTML转换器（我指向的问题中至少提到了一个），然后使用BeautifulSoup查找粗体HTML元素。

Answer 2

根据Wikipedia ...

{\rtf1\ansi{\fonttbl\f0\fswiss Helvetica;}\f0\pard
This is some {\b bold} text.\par
}

如果你想分成新的一行，我想你可以做.replace('{\\b ', '\n')并且大部分都在那里。如果您还想删除其他}

，请切换到正则表达式替换