所以我在看这个..
<a href="/v-renovation-contracting-handyman/mississauga-peel-region/basement-bathroom-kitchen-renovation/1358026706?enableSearchNavigationFlag=true" class="title enable-search-navigation-flag">
BASEMENT ★ BATHROOM ★ KITCHEN RENOVATION ★</a>
如何在那里处理奇怪的角色(★
)?
因为这是打印出来的。
BASEMENT ★ BATHROOM ★ KITCHEN RENOVATION ★
您是以特殊方式编码还是做什么?
这是我用来打印该文本的内容
var ListingTitle = HttpUtility.HtmlDecode(Listing.InnerText.Trim());
//Traverse through the DOM
var Nodes = DOM.DocumentNode.SelectNodes("//td[@class = 'description']/a");
var listTest = new List<DataContext>();
foreach (var Listing in Nodes)
{
//Get the href
var ListingTitle = HttpUtility.HtmlDecode(Listing.InnerText.Trim());
Console.WriteLine(ListingTitle);
if (ListingTitle.Contains(','))
{
string newTitle = ListingTitle.Replace(',', '.');
Title = newTitle;
}
else
{
Title = ListingTitle;
}
}
答案 0 :(得分:-1)
我面临的问题与编码有关。 网站内容使用UTF8编码表进行编码
默认情况下,当使用StreamWriter打印文本时,它不使用UTF8。
究竟是什么用途我找不到,但我必须将Encoding参数设置为0