C ++ 11正则表达式是否适用于UTF-8字符串?

时间:2012-06-28 23:20:54

标签: c++ regex unicode utf-8 c++11

如果我想使用带有unicode字符串的C ++ 11正则表达式,它们是否可以使用char *作为UTF-8,还是必须将它们转换为wchar_t *字符串?

4 个答案:

答案 0 :(得分:14)

您需要测试您的编译器和您正在使用的系统,但理论上,如果您的系统具有UTF-8语言环境,则会支持它。以下测试在Clang / OS X上为我返回。

bool test_unicode()
{
    std::locale old;
    std::locale::global(std::locale("en_US.UTF-8"));

    std::regex pattern("[[:alpha:]]+", std::regex_constants::extended);
    bool result = std::regex_match(std::string("abcdéfg"), pattern);

    std::locale::global(old);

    return result;
}

注意:这是在UTF-8编码的文件中编译的。


为了安全起见,我还使用了带有显式十六进制版本的字符串。它也有效。

bool test_unicode2()
{
    std::locale old;
    std::locale::global(std::locale("en_US.UTF-8"));

    std::regex pattern("[[:alpha:]]+", std::regex_constants::extended);
    bool result = std::regex_match(std::string("abcd\xC3\xA9""fg"), pattern);

    std::locale::global(old);

    return result;
}

更新 test_unicode()仍适用于我

$ file regex-test.cpp 
regex-test.cpp: UTF-8 Unicode c program text

$ g++ --version
Configured with: --prefix=/Applications/Xcode-8.2.1.app/Contents/Developer/usr --with-gxx-include-dir=/usr/include/c++/4.2.1
Apple LLVM version 8.0.0 (clang-800.0.42.1)
Target: x86_64-apple-darwin15.6.0
Thread model: posix
InstalledDir: /Applications/Xcode-8.2.1.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin

答案 1 :(得分:2)

C ++ 11正则表达式将“与UTF-8一起工作”,对于“工作”的最小定义。如果你想要UTF-8字符串的“完整”Unicode正则表达式支持,你最好使用一个直接支持它的库,例如http://www.pcre.org/

答案 2 :(得分:0)

我有一个用例,我需要在查找笛卡尔坐标时处理潜在的 unicode字符串,此示例显示我如何处理std::wregex std::wstringstatic bool isCoordinate(std::wstring token) { std::wregex re(L"^(-?[[:digit:]]+)$"); std::wsmatch match; return std::regex_search(token, match, re); } int wmain(int argc, wchar_t * argv[]) { // Testing against not a number nor unicode designation bool coord = ::isCoordinate(L"أَبْجَدِيَّة عَرَبِيَّة‎中文"); if (!coord) return 0; return 1; } ,针对解析模块的潜在 unicode字符。

{{1}}

答案 3 :(得分:-2)

是的,这是UTF-8编码的设计。如果将字符串视为字节数组而不是代码点数组,则子字符串操作应该可以正常工作。

请参阅此处的常见问题解答#18:http://www.utf8everywhere.org/#faq.validation,了解如何在此编码的设计中实现此目标。