Question

我试图通过一种通用的方式从文件中获取文本。相当简单，除了要求它应该丢弃领先的BOM字符。对于UTF-8，我得到了这个工作。我使用了正则表达式：

Pattern LEADING_BOM_PATTERN = Pattern.compile("^\uFEFF+");

Charset encoding; // This is given.
InputStream input; // This is created.

// Remove the leading BOM characters.
String text = IOUtils.toString(input, encoding);
text = LEADING_BOM_PATTERN.matcher(text).replaceFirst("");

现在我的问题：这适用于UTF-8 BOM字符（EF BB BF），但不适用于任何其他字符。但是，正如它所述here：

构成BOM的确切字节将是通过该转换格式转换为Unicode字符U + FEFF的任何内容。

这使我认为“\ uFEFF”字符适用于所有BOM字符。事实证明，事实并非如此。

经过一番研究后，结果发现“FE FF”和“FF FE”BOM字符都被Java读取为字符65533，而“\ uFEFF”字符串解析为字符65279.这确实清楚了为什么字符不会删除，但我不相信这是预期的行为。

任何人都可以阐明为什么会这样做，或者更确切地说如何修复它？谢谢:)）

Answer 1

原来这只是一个非常愚蠢的错误。我没有将正确的编码传递给IOUtils。因此它没有返回正确的字符。通过UTF-16字符集时，它工作正常。傻我......

使用UTF-16 BOM字符

1 个答案: