Question

我在源代码中的一些正则表达式中使用了一些日语/法语单词。我不想将这些转换为\ u表示法，因为跟踪它会很困难并且可能会引入难以捕获的错误。

我们是否有任何标准做法来处理源代码中的非ASCII字符，或者可以按原样使用它们。

由于

Answer 1

由于程序行为现在依赖于编译程序的机器的平台默认编码或编译器参数，因此存在一定的风险。而且这也很难捕捉到错误。

如果只有少数这样的正则表达式，我更喜欢使用Unicode转义符。如果有很多，我会咬紧牙关并使用源代码的UTF-8，但只有在我有

之后

Answer 2

Java源代码被认为是用ASCII编码的，除非使用-encoding开关另外指定：

javac -encoding utf8 SourceFile.java

所以，使用它并将文本编辑器设置为UTF-8编码，你可以包含你喜欢的任何Unicode字符。