我一直想知道使用IFilter
提取文字的编码。
IFilter::GetText()
检索WCHAR*
,但是如果文件是用ASCII编码的呢?那么其他Unicode编码(例如UTF-8或UTF-16?)?
正如我所看到的,它是IFilter负责将提取的文本转换为单个编码(如果是这种情况 - 这是什么编码?),如果不是,我怎么知道哪个编码是吗?
答案 0 :(得分:2)
输出文本是UTF-16(Windows中使用WCHAR
的所有内容都是UTF-16)。无法查询输入数据的编码,如果需要,您必须自己分析该数据。