使用非ASCII字符从wchar_t创建v8 :: String的安全方法是什么?

时间:2015-08-18 11:43:31

标签: c++ node.js raspberry-pi non-ascii-characters embedded-v8

我正在为DAB development board编写一个Node.js前端,它最终会在Raspberry Pi上运行。我是一名Java和Web开发人员,我正在努力使用C ++并在不同类型的字符串之间进行转换。

DAB主板附带一个C ++ SDK,具有许多方便的功能。它允许我使用GetTotalProgram()获取可用程序的数量。对于每个程序,我可以调用GetProgramName来获取程序的名称:

GetProgramName(char mode, long dabIndex, char namemode, wchar_t * programName)

...其中mode表示FMDABnamemode表示长或短名称。该程序的名称将在programName中返回。

为了将wchar_t *programName转换为v8::String,我找到了我正在使用的这个片段,并了解以下基础知识:

  wchar_t buff[300];
  char cbuff[600];
  GetProgramName(0, i, 1, buff);
  wcstombs( cbuff, buff, wcslen(buff) );
  Local<String> str = String::NewFromUtf8(isolate, (const char *) cbuff, v8::String::kNormalString, wcslen(buff));

我遍历可用的程序并构建v8::Array

void GetPrograms(const FunctionCallbackInfo<Value>& args) {
  Isolate* isolate = Isolate::GetCurrent();
  HandleScope scope(isolate);

  wchar_t buff[300];
  char cbuff[600];
  int numberOfPrograms, i;

  numberOfPrograms = GetTotalProgram();
  Local<v8::Array> ARRAY = Array::New(isolate, totalprogram);

  for (i = 0; i < numberOfPrograms; i++) {
    if (GetProgramName(0, i, 1, buff)) {
      wcstombs( cbuff, buff, wcslen(buff) );
      Local<String> str = String::NewFromUtf8(isolate, (const char *) cbuff, v8::String::kNormalString, wcslen(buff));
      Local<Object> obj = Object::New(isolate);
      obj->Set(String::NewFromUtf8(isolate, "name"), str);
      ARRAY->Set(i, obj);
    }
  }
  args.GetReturnValue().Set(ARRAY);
}

我从我的Node应用程序调用C ++方法:

var programs = ext.getPrograms();
for (var i = 0; i < programs.length; i++) {
  console.log(programs[i][name]);
}

这主要有效,但当程序名称包含非ASCII字符时,如ÆØÅ next ARRAY中的元素有一个borked名称

与预期输出相比,以下是节点片段实际输出的内容(console.log):

| ACTUAL    | EXPECTED   |
| --------- | ---------- |
| NRK SUPER | NRK SUPER  |
| NRK VUPER | NRK VÆR    |
| NRK P1 ER | NRK P1     |

似乎非ASCII字符导致下一个wcstombs提前退出,而不是复制后面的字符。

为什么会这样?有没有更好的方法可以从我的v8::String创建wchar_t

注意: 我现在能够在Raspberry Pi上运行时将此问题隔离到wcstombs方法。以下代码:

#include <stdio.h>
#include <string>
#include <cstring>
#include <cstdlib>

char cbuff[600];
wchar_t buff[300] = L"ABCø123abc";

int main( int argc, const char* argv[] ) {
    wcstombs( cbuff, buff, wcslen(buff) );
    wprintf(L"wcslen of wchar_t array: %u - strlen of char array: %u\n", (char) wcslen(buff), strlen(cbuff));
}

在Mac上运行时,输出
wcslen of wchar_t array: 10 - strlen of char array: 10
但是当在Raspberry上运行时,输出
wcslen of wchar_t array: 10 - strlen of char array: 3 - 也就是说,它仅计算ø字符

之前的字符

这与this unanswered question类似。

3 个答案:

答案 0 :(得分:2)

WCHAR str[256];0
... // fill str array here
Local<String> v8str = String::NewFromTwoByte(isolate, (const uint16_t *) str);

请注意::NewFromTwoByte使用而不是::NewFromUtf8(const uint16_t *)强制转换。

  

::NewFromTwoByte从UTF-16数据中分配一个新字符串。

答案 1 :(得分:0)

我猜wcstombs中的最后一个参数是问题的原因。而不是尝试

 wcstombs( cbuff, buff, wcslen(buff) );

尝试

memset(cbuff, 0, sizeof(cbuff));
wcstombs( cbuff, buff, sizeof(cbuff) );

答案 2 :(得分:0)

问题出现在wcstombs( cbuff, buff, wcslen(buff) )调用中,当遇到非ASCII字符时会停止复制字符。 docs此函数的行为取决于所选C语言环境的LC_CTYPE类别。

因此,将语言环境设置为UTF-8变体解决了这个问题:

setlocale(LC_CTYPE, "C.UTF-8");

完成此操作后,我现在可以通过这种方式创建v8::String

wchar_t buff[300] = L"Something non-ASCII ÆØÅ here";
char cbuff[600];
wcstombs( cbuff, buff, wcslen(buff) );
Local<String> str = String::NewFromUtf8(isolate, (const char *) cbuff, v8::String::kNormalString, wcslen(buff));