C#编码Shift-JIS与utf8 html敏捷包

时间:2013-05-19 14:54:27

标签: c# html encoding html-agility-pack

我有一个问题。我的目标是将一些(日语Shift-JS编码)html中的文本保存到utf8编码的文本文件中。 但我真的不知道如何编码文本.. HtmlNode对象是用Shift-JS编码的。但在我使用ToString()方法后,内容已损坏。 到目前为止我的方法看起来像这样:

public String getPage(String url)
    {
        String content = "";

        HtmlDocument page = new HtmlWeb(){AutoDetectEncoding = true}.Load(url);
        HtmlNode anchor = page.DocumentNode.SelectSingleNode("//div[contains(@class, 'article-def')]");

        if (anchor != null)
        {
            content = anchor.InnerHtml.ToString();
        }
        return content;
    }

我试过

Console.WriteLine(page.Encoding.EncodingName.ToString());

并得到:日语Shift-JIS 但是将html转换为String会产生错误。我认为应该有办法,但由于html-agility-pack的文档很少,我无法通过谷歌找到解决方案,我在这里也得到一些提示。

1 个答案:

答案 0 :(得分:4)

嗯,AutoDetectEncoding并不像你期望的那样真正起作用。根据我在查看AgilityPack源代码时发现的内容,该属性仅在从磁盘加载本地文件时使用,而不是从URL中加载。

所以有三种选择。一种是设置编码

OverrideEncoding = Encoding.GetEncoding("shift-jis")

如果您知道编码将始终与最简单的修复相同。

或者您可以在本地下载文件并以与现在相同的方式加载它,但不是您传递文件路径的URL。

 using (var client=new WebClient())
 {
   client.DownloadFile(url, "20130519-OYT1T00606.htm");
 }
 var htmlWeb = new HtmlWeb(){AutoDetectEncoding = true};
 var file = new FileInfo("20130519-OYT1T00606.htm");
 HtmlDocument page = htmlWeb.Load(file.FullName);

或者您可以检测内容中的编码,如下所示:

byte[] pageBytes;
using (var client = new WebClient())
{
  pageBytes = client.DownloadData(url);
}
HtmlDocument page = new HtmlDocument();
using (var ms = new MemoryStream(pageBytes))
{
  page.Load(ms);
  var metaContentType = page.DocumentNode.SelectSingleNode("//meta[@http-equiv='Content-Type']").GetAttributeValue("content", "");
  var contentType = new System.Net.Mime.ContentType(metaContentType);
  ms.Position = 0;
  page.Load(ms, Encoding.GetEncoding(contentType.CharSet));
}

最后,如果您要查询的页面返回响应中的内容类型,您可以查看here有关如何获取编码的信息。

您的代码当然需要比我的更多的空检查。 ;)