我创建了一个定义为
的模板函数template < typename _Iter8, typename _Iter32 >
int Utf8toUtf32 ( const _Iter8 & _from, const _Iter8 & _from_end, _Iter32 & _dest, const _Iter32 & _dest_end );
编辑:第一个参数是一个const类型。
第一个和第三个参数会更改以反映其新位置。第二个和第四个参数标记迭代的上边界。
我希望实现'一个功能适合所有'的逻辑。唯一的规定是两个_Iter
类型具有相同的类型并且是可解除引用的。此外,我希望模板参数可以被删除。
我遇到的第一个问题是
char utf8String [] "...some utf8 string ...";
wchar_t wideString [ 100 ];
char * pIter = utfString;
Utf8toUtf16( pIter, pIter + n, wideString, wideString + 100 );
_Iter16
含糊不清。我猜是因为编译器将第三个参数视为wchar_t[ 100 ] type
而第四个参数视为wchar_t* type
。如我错了请纠正我。将代码更改为:
Utf8toUtf16( pIter, pIter + n, (wchar_t*)wideString, wideString + 100 );
解决了这个问题。丑陋但有效。
然后我遇到了另一个问题:
unsigned long nCodepoint;
Utf8toUtf32( pIter, pIter + n, &nCodepoint, &nCodepoint + 1 ));
显然,如果我将nCodepoint
更改为数组类型并应用与第一个相同的转换,则会编译。
我不确定我是否错误地定义了模板参数。 我的问题是如何根据上面的约束我是如何正确编码的呢?有没有办法在不诉诸强制转换的情况下做到这一点?
编辑: 正如Jogojapan和DyP在下面指出的那样,上面的演员不应该编译。我应该创建一个指向数组前面的新指针并将其传入。对于nCodepoint,我可能必须将其创建为长度为1的数组。
答案 0 :(得分:3)
由于jogojapan实际给出了答案,我将把它变成一个社区维基。
IMO,这是一个充分的解决方案:
template < typename Iter8, typename Iter32 >
Iter32 Utf8toUtf32(Iter8 _from, Iter8 _from_end, Iter32 _dest, Iter32 _dest_end);
这是为了返回您想要更改为_dest
的内容。
如果你真的还需要返回int
,你可以返回一对。
要反映要读取哪些迭代器以及要写入哪些迭代器,可以使用模板参数的命名方案,例如: InputIterator8
和OutputIterator32
。
从标准库的功能中进行类比:
std::vector<int> v = {1,2,3,4};
for(auto i = v.begin(); i != v.end();)
{
if(*i == 2)
{
i = v.erase(i); // iterator invalidated and new "next" iterator returned
}
}
如果你希望你的函数a)接受数组而b)类似于标准库函数,我没有看到任何其他方法,只能返回“已更改”的迭代器。我知道唯一实际更改传递的迭代器的库函数是std::advance
。
示例:
template < typename Iter8, typename Iter32 >
std::tuple<int, Iter8, Iter32> Utf8toUtf32(Iter8 _from, Iter8 _from_end,
Iter32 _dest, Iter32 _dest_end);
char utf8String [] = "...some utf8 string ...";
wchar_t wideString [ 100 ];
char* pUtf8Res = nullptr;
wchar_t* pUtf16Res = nullptr;
int res = 0;
std::tie(res, pUtf8Res, pUtf16Res) = Utf8toUtf16( begin(pIter), end(pIter),
begin(wideString), end(wideString) );
(由jogojapan编辑)
如果你必须继续传递迭代器作为引用,因为你想要更新它们指向的文本位置,问题中描述的两个问题都无法直接解决。
问题1:将wideString
(本地数组)传递给函数将意味着其类型衰减到wchar_t*
rvalue,并且不能绑定到wchar_t *&
非const参考。换句话说,你不能有一个函数修改本地数组的地址。将它转换为指针不会改变这一事实,并且当它接受该解决方案时编译器是错误的。
问题2:同样,通过引用传递nCodepoint
的地址是不可能的,因为该地址无法更改。唯一的解决方案是先将地址存储在一个单独的指针中,然后传递:
unsigned long *pCodepoint = &nCodepoint;
Utf8toUtf32(pIter,PIter+5,pCodepoint,pCodepoint+1);
(jogojapan的另一个编辑)
如果你想通过引用传递,但是你想使函数足够灵活以接受非引用参数,你实际上可以提供模板的重载定义:
/* Using C++11 code for convenience. Rewriting in C++03 is easy. */
#include <type_traits>
template <typename T>
using noref = typename std::remove_reference<T>::type;
template <typename Iter8, typename Iter32>
int Utf8toUtf32 (Iter8 &from, const Iter8 from_end, Iter32 &dest, const Iter32 dest_end)
{
return 0;
}
template <typename Iter8, typename Iter32>
int Utf8toUtf32 (Iter8 &from, const Iter8 from_end, noref<Iter32> dest, const Iter32 dest_end)
{
noref<Iter32> p_dest = dest;
return Utf8toUtf32(from,from_end,p_dest,dest_end);
}
template <typename Iter8, typename Iter32>
int Utf8toUtf32 (noref<Iter8> from, const Iter8 from_end, Iter32 &dest, const Iter32 dest_end)
{
noref<Iter8> p_from = from;
return Utf8toUtf32(p_from,from_end,dest,dest_end);
}
template <typename Iter8, typename Iter32>
int Utf8toUtf32 (noref<Iter8> from, const Iter8 from_end, noref<Iter32> dest, const Iter32 dest_end)
{
noref<Iter8> p_from = from;
noref<Iter32> p_dest = dest;
return Utf8toUtf32(p_from,from_end,p_dest,dest_end);
}
然后,您可以使用左值和右值的各种组合来调用它:
int main()
{
char input[] = "hello";
const char *p_input = input;
unsigned long dest;
unsigned long *p_dest = &dest;
std::string input_str("hello");
Utf8toUtf32(input,input+5,&dest,&dest+1);
Utf8toUtf32(p_input,p_input+5,&dest,&dest+1);
Utf8toUtf32(input,input+5,p_dest,p_dest+1);
Utf8toUtf32(p_input,p_input+5,p_dest,p_dest+1);
Utf8toUtf32(begin(input_str),end(input_str),p_dest,p_dest+1);
Utf8toUtf32(begin(input_str),end(input_str),&dest,&dest+1);
return 0;
}
但要注意:当传递rvalue(例如数组或类似&local_var
的表达式)时,调用将起作用并且不会有未定义的行为,但当然是局部变量或数组的地址当然还是不会改变。因此,在这种情况下,调用者不会能够找出该函数能够处理多少个字符。