无法完全纠正网站的编码问题

时间:2015-04-10 00:24:11

标签: c# character-encoding web-scraping

我正在为一个足球网站开发一个网络刮刀。从各个国家/地区提取名称时显然存在问题(显然,这些国家/地区有各种各样的字符)。我已经找到了纠正其中一些方法的方法,但它没有捕捉土耳其语或其他任何东西。以下是我到目前为止的情况:

private String formatMe(String sF)
    {
      String myString = Encoding.UTF8.GetString(Encoding.UTF8.GetBytes(sF))
         .Replace("é", "é")
         .Replace("á", "á")
         .Replace("í", "í")
         .Replace("ó", "ó");

      return myString;

    }//END FORMAT

此处an example of a site I would pull from

无论如何,我可以一举修复网站的编码吗?

1 个答案:

答案 0 :(得分:0)

我找到了答案!我假设文本已经以UTF8形式出现了。 This question helped a lot!