我们从众多来源获取RTF文件(以及生成我们自己的文件)。 RTF标准允许通常不必要的各种无关信息。因此,具有相同内容的RTF文件的大小和原始代码可能会有很大不同。
例如,如果我在Microsoft的写字板中创建一个简单的4行RTF文档,则生成的文件为222个字节。如果我在Word中打开该文档,添加一个字符,并再次保存,新文件的大小超过30,000字节!
我们无法控制我们收到的RTF文件的来源或编码,有时我们会得到一个奇怪的编码,我们的RTF工具(来自wpcubed的wptools 6,在Delphi 2007中)无法使用它 - 在我们今天遇到的情况下,项目符号列表无法更改为编号列表,但过去我们也遇到了其他各种问题。总的来说,wptools可以很好地处理我们投入的所有内容,但有时文档太奇怪了。
所以,问题是 - 是否有任何工具或方法来清理RTF文件?也就是说,解析它,确定实际需要什么,并剥离垃圾(就像垃圾Word增加的30k一样)?