想知道是否有某种objC库可用于解析/读取word文档,因此我可以将其转换为txt文件以进行更多数据处理。
答案 0 :(得分:1)
如果Word文档中只需要纯文本,那就非常简单了。
假设您有一个NSData填充了Word .doc ...
中的数据从字节索引536处的数据中读取UInt32。此数字加上512是文本开始的字节索引。 (通常从2048年开始,但并非总是如此。)
从数据中的字节索引588读取另一个UInt32。这个数字是文本中的字符数。
从这两个UInt32中取出一个范围,然后从数据中读取该范围内的文本。
UInt32 fcMin;
[data getBytes:&fcMin range:NSMakeRange(536, sizeof(UInt32))];
UInt32 ccpText;
[data getBytes:&ccpText range:NSMakeRange(588, sizeof(UInt32))];
NSData *textData = [data subdataWithRange:NSMakeRange(fcMin + 512, ccpText)];
NSString *textContent = [[NSString alloc] initWithData:textData encoding:NSUTF16LittleEndianStringEncoding];