我正在编写一个编译器(用于我自己的编程语言),我想允许用户使用Unicode字母类别中的任何字符来定义标识符(现代语言,如Go已经允许这样的语法)。 我已经在C ++ 11中阅读了很多关于字符编码的内容,并且基于我发现的所有信息,使用utf32编码会很好(在词法分析器中迭代很快,它比utf8更好的支持在C ++)。
在C ++中有isalpha
函数。如果它是一个字母(在任何语言中被归类为“字母”的Unicode代码点),我如何测试wchar32_t
?
甚至可能吗?
答案 0 :(得分:1)
使用ICU迭代字符串并检查是否满足相应的Unicode属性。以下是C中用于检查UTF-8命令行参数是否为有效标识符的示例:
#include <stdint.h>
#include <stdlib.h>
#include <string.h>
#include <unicode/uchar.h>
#include <unicode/utf8.h>
int main(int argc, char **argv) {
if (argc != 2) return EXIT_FAILURE;
const char *const str = argv[1];
int32_t off = 0;
// U8_NEXT has a bug causing length < 0 to not work for characters in [U+0080, U+07FF]
const size_t actual_len = strlen(str);
if (actual_len > INT32_MAX) return EXIT_FAILURE;
const int32_t len = actual_len;
if (!len) return EXIT_FAILURE;
UChar32 ch = -1;
U8_NEXT(str, off, len, ch);
if (ch < 0 || !u_isIDStart(ch)) return EXIT_FAILURE;
while (off < len) {
U8_NEXT(str, off, len, ch);
if (ch < 0 || !u_isIDPart(ch)) return EXIT_FAILURE;
}
}
请注意,此处的ICU使用Java定义,这与UAX #31中的略有不同。在实际应用中,您可能还希望在之前将其标准化为NFC。
答案 1 :(得分:0)
ICU项目中有一个isaplha
。我想你可以用它。