如何处理奇怪的HTML字符? HtmlAgilityPack

时间:2018-05-26 19:46:10

标签: c# html

所以我在看这个..

<a href="/v-renovation-contracting-handyman/mississauga-peel-region/basement-bathroom-kitchen-renovation/1358026706?enableSearchNavigationFlag=true" class="title enable-search-navigation-flag">
   BASEMENT ★ BATHROOM ★ KITCHEN RENOVATION ★</a>

如何在那里处理奇怪的角色()?

因为这是打印出来的。

BASEMENT ★ BATHROOM ★ KITCHEN RENOVATION ★

您是以特殊方式编码还是做什么?

这是我用来打印该文本的内容

var ListingTitle = HttpUtility.HtmlDecode(Listing.InnerText.Trim());

//Traverse through the DOM
            var Nodes = DOM.DocumentNode.SelectNodes("//td[@class = 'description']/a");

            var listTest = new List<DataContext>();


            foreach (var Listing in Nodes)
            {
                //Get the href
                var ListingTitle = HttpUtility.HtmlDecode(Listing.InnerText.Trim());
                Console.WriteLine(ListingTitle);
                if (ListingTitle.Contains(','))
                {
                    string newTitle = ListingTitle.Replace(',', '.');
                    Title = newTitle;
                }
                else
                {
                    Title = ListingTitle;
                }
}

1 个答案:

答案 0 :(得分:-1)

我面临的问题与编码有关。 网站内容使用UTF8编码表进行编码

默认情况下,当使用StreamWriter打印文本时,它不使用UTF8。 究竟是什么用途我找不到,但我必须将Encoding参数设置为0