问题是:在运行时设置编码时如何解析文件?
编码可以是: utf-8 , utf-16 , latin1 或其他
目标是将ubyte []转换为所选编码的字符串。因为当你使用std.stdio.File.byChunk或std.mmFile.MmFile时,你有ubyte []作为数据。
答案 0 :(得分:1)
您是否尝试将文本文件转换为utf-8?
如果回答为“是”,则Phobos具有特定的功能:@trusted string toUTF8(in char[] s)
。
有关详细信息,请参阅http://dlang.org/phobos/std_utf.html。
对不对,如果不是你需要的。
答案 1 :(得分:0)
我找到了一种方法,也许使用std.algorithm.reduce应该更好
import std.string;
import std.stdio;
import std.encoding;
import std.algorithm;
void main( string[] args ){
File f = File( "pathToAfFile.txt", "r" );
size_t i;
auto e = EncodingScheme.create("utf-8");
foreach( const(ubyte)[] buffer; f.byChunk( 4096 ) ){
size_t step = 0;
if( step == 0 ) step = e.firstSequence( buffer );
for( size_t start; start + step < buffer.length; start = start + step )
write( e.decode( buffer[start..start + step] ) );
}
}
答案 2 :(得分:0)
D字符串已经是UTF-8。不需要转码。您可以使用validate
中的std.utf
来检查文件是否包含有效的UTF-8。如果您使用readText
中的std.file
,则会为您进行验证。
答案 3 :(得分:0)
File.byChunk返回一个范围,它通过前面返回一个ubyte []。
快速谷歌搜索似乎表明UTF-8使用1到6个字节来编码数据,因此只需确保您总是有6个字节的数据,并且您可以使用std.encoding的解码将其转换为dchar字符。然后,您可以使用std.utf的toUFT8转换为常规字符串而不是dstring。
下面的转换函数会将任何无符号数组范围转换为字符串。
import std.encoding, std.stdio, std.traits, std.utf;
void main()
{
File input = File("test.txt");
string data = convert(input.byChunk(512));
writeln("Data: ", data);
}
string convert(R)(R chunkRange)
in
{
assert(isArray!(typeof(chunkRange.front)) && isUnsigned!(typeof(chunkRange.front[0])));
}
body
{
ubyte[] inbuffer;
dchar[] outbuffer;
while(inbuffer.length > 0 || !chunkRange.empty)
{
while((inbuffer.length < 6) && !chunkRange.empty)// Max UTF-8 byte length is 6
{
inbuffer ~= chunkRange.front;
chunkRange.popFront();
}
outbuffer ~= decode(inbuffer);
}
return toUTF8(outbuffer); // Convert to string instead of dstring
}