我正在使用strtok来标记UTF-8文本。它在Ubuntu 32位中正常工作但在Ubuntu 64位中它无法对某些单词进行标记,例如“bölen”。 strtok认为有两个词:“b”和“ len”。我的代码示例如下。
我想知道如何在64位Linux中解决该问题,为什么它在32位Linux中正常工作?
char* str = const_cast<char*>(content.c_str());
char * tokenizedWord;
tokenizedWord = strtok(str, " !'^+%&/\()=?_-*.,;:<>|´`~¨}][{#");
EDIT1 两个OS的语言环境都是相同的:
LANG=en_US.UTF-8
LANGUAGE=
LC_CTYPE="en_US.UTF-8"
LC_NUMERIC="en_US.UTF-8"
LC_TIME="en_US.UTF-8"
LC_COLLATE="en_US.UTF-8"
LC_MONETARY="en_US.UTF-8"
LC_MESSAGES="en_US.UTF-8"
LC_PAPER="en_US.UTF-8"
LC_NAME="en_US.UTF-8"
LC_ADDRESS="en_US.UTF-8"
LC_TELEPHONE="en_US.UTF-8"
LC_MEASUREMENT="en_US.UTF-8"
LC_IDENTIFICATION="en_US.UTF-8"
LC_ALL=
EDIT2我使用以下函数初始化内容:
content = fileImport(path+ "/" + fileName);
string fileImport(string filePath) {
string line, content;
ifstream myfile(filePath.c_str());
if (myfile.is_open()) {
while (myfile.good()) {
getline(myfile, line);
content.append(line);
}
myfile.close();
} else
fprintf(stderr, "\nFile is cant read\n");
return content;
}