我正在使用带有Synapse for Delphi 7 Professional的HttpGetText来获取网页的来源 - 但随时可以推荐任何组件和代码。
目标是通过将非ASCII字符“统一”到单个字符集来节省一些时间,因此我可以使用相同的Delphi代码处理它。
所以我正在寻找类似于“在Notepad ++中选择所有并转换为没有BOM的UTF”的内容,如果您知道我的意思。 ANSI而不是UTF8也没关系。
网页以3个字符集编码:UTF8,“ISO-8859-1 = Win 1252 = ANSI”,直接在没有字符集规范的小巷HTML4中,即。 htmlencoded Å
在内容中输入字符。
如果我需要编写一个执行转换的PHP页面,那也没关系。无论最少的代码/时间是什么。
答案 0 :(得分:0)
当您检索网页时,其Content-Type
标题(有时是HTML内部的<meta>
标记)会告诉您哪个字符集用于数据。您可以使用该字符集将数据解码为Unicode,然后您可以将Unicode编码为您处理所需的任何内容。
答案 1 :(得分:0)
我在使用GpTextStream检索HTML后直接进行了反向转换。使文档符合ISO-8859-1标准使得它们可以使用直接的Delphi进行处理,这节省了相当多的代码更改。在输出时,所有数据都转换为UTF-8:)
这是一些代码。也许不是最漂亮的解决方案,但它肯定能在更短的时间内完成工作。请注意,这是用于反向转换。
procedure UTF8FileTo88591(fileName: string);
const bufsize=1024*1024;
var
fs1,fs2: TFileStream;
ts1,ts2: TGpTextStream;
buf:PChar;
siz:integer;
procedure LG2(ss:string);
begin
//dont log for now.
end;
begin
fs1 := TFileStream.Create(fileName,fmOpenRead);
fs2 := TFileStream.Create(fileName+'_ISO88591.txt',fmCreate);
//compatible enough for my purposes with default 'Windows/Notepad' CP 1252 ANSI and Swe ANSI codepage, Latin1 etc.
//also works for ASCII sources with htmlencoded accent chars, naturally
try
LG2('Files opened OK.');
GetMem(buf,bufsize);
ts1 := TGpTextStream.Create(fs1,tsaccRead,[],CP_UTF8);
ts2 := TGpTextStream.Create(fs2,tsaccWrite,[],ISO_8859_1);
try
siz:=ts1.Read(buf^,bufsize);
LG2(inttostr(siz)+' bytes read.');
if siz>0 then ts2.Write(buf^,siz);
finally
LG2('Bytes read and written OK.');
FreeAndNil(ts1);FreeAndNil(ts2);end;
finally FreeAndNil(fs1);FreeAndNil(fs2);FreeMem(buf);
LG2('Everything freed OK.');
end;
end; // UTF8FileTo88591