我正在处理一个巨大的富文本文件,其中每个条目都以粗体标题开头。将富文本文件导入Python并将其分割成任何看到粗体文本的行都非常有用。但是,我无法找到导入非纯文本的方法,并且已经求助于寻找其他方法来查找粗体文本的开始位置。
有没有办法让Python读取粗体文本的位置?
答案 0 :(得分:0)
不,不容易。当然不在StackOverflow答案范围内。
问题在于RTF是一种专有格式,具有描述格式的特殊“语法”。
有些库试图阅读它,这里有所描述:Is there a Python module for converting RTF to plain text?
但是,即使其中一个人会为您阅读文本,也不太可能告诉您格式。毕竟,它会告诉你什么?
您最好的选择可能是找到RTF到HTML转换器(我指向的问题中至少提到了一个),然后使用BeautifulSoup查找粗体HTML元素。
答案 1 :(得分:0)
根据Wikipedia ...
{\rtf1\ansi{\fonttbl\f0\fswiss Helvetica;}\f0\pard
This is some {\b bold} text.\par
}
如果你想分成新的一行,我想你可以做.replace('{\\b ', '\n')
并且大部分都在那里。如果您还想删除其他}