我使用CSQuery解析阿拉伯语的网站。当我使用text()函数时,它按原样返回文本,但是当我使用html()函数时,它使用html编码。例如,这是我的html标签:
<div>تعلن عن إرسالها مركبة فضائية للمريخ قريباً جداً</div>
当我使用时:
dom["div"].Text();
它返回:“تعلنعنإرسالهامركبةفضائيةللمريخقريباجدا”。 但是,当我使用:
dom["div"].Html();
它返回:
&#1578;&#1593;&#1604;&#1606; &#1593;&#1606; &#1573;&#1585;&#1587;&#1575;&#1604;&#1607;&#1575; &#1605;&#1585;&#1603;&#1576;&#1577; &#1601;&#1590;&#1575;&#1574;&#1610;&#1577; &#1604;&#1604;&#1605;&#1585;&#1610;&#1582; &#1602;&#1585;&#1610;&#1576;&#1575;&#1611; &#1580;&#1583;&#1575;&#1611;
问题是如何在不编码的情况下保留实际文本的同时使用Html?我需要Html()函数来检索选择器标记内的任何现有标记。
编辑: 这是原始html页面的内容类型:
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
答案 0 :(得分:0)
我最终使用System.Net.WebUtility.HtmlDecode()来解码Html()函数的输出。
答案 1 :(得分:0)
如果您要使用WebClient抓取HTML页面(这是我的情况),这应该会对您有所帮助
Problem_Head Problem_Pox Problem_Stomach
PAT_MRN_ID
7860000 0 0 1
8165474 0 1 0
8227510 1 0 0
9641956 1 0 1