我有包含这种内容的RTF文件:
long_text_description_1 number1a number1b number1c
long_text_description_2 number2a number2b number2c
long_text_description_3 number3c
long_text_description_4 number4a number4b number4c
…
我需要提取没有颜色,字体和其他格式化内容的纯文本原始文本。 我唯一需要保留的是最基本的行/列信息,理想情况下我想要一个CSV文件。
我得到的文件包含所有格式:
{\cs18\lang1033\langfe1033\f0\b\i0\ul0\strike0\scaps0\fs15\afs15\charscalex100\expndtw0\cf1\dn0 number1a}
在保留行信息的同时删除所有rtf信息的最佳方法是什么? 除非完全理解RTF格式,否则试图找出自己许多正则表达式听起来很危险。
我在互联网上可以找到的主要是使用Windows语言& iOS中无法使用的库。
答案 0 :(得分:0)
所有rtf标签的格式均为\xxx
。
尝试使用像“\\ S +”这样的正则表达式并删除所有匹配或替换为空。
对于您的示例,您最终会得到{ number1a}
这将删除后跟任何字符的任何反斜杠。