返回的html数据格式不正确,我从Fiddler那里得到它,现在我想解析那个不正确的格式数据,我试图用Fizzler来解析它,但它无法读取div标签的类或id,因为格式不正确:这是我的HTML数据:
我使用Regex切断根(resposta =)以获得html内容,但仍然无法解析。 (正则表达式:resposta \ s = \ s“(?(。| \ n)\ *。*)”)
我想由于html内容中的\符号,解析器无法用\
解析内容我在这里引用了html返回数据的一小部分:
resposta = "<div style=\" margin-top:10px;width: 100%; position:relative;height:56px;\"><a href=\"\/WebsiteRoot\/v2\/?hotelinfo&ss=433&landingpage=hfofertafranca\" rel=\"nofollow\" title=\"Offre Speciale\" onClick=\"_gaq.push([\'_trackEvent\', \'Banner Promocode Booking\', \'Click\', \'Click idioma fr\',,false]);\" class=\"addlink det\"><img src=\"\/rootimages\/ofertaespecial_fr.png\" height=\"56\" width=\"891\" alt=\"Offre Speciale\"\/><\/a><\/div><div class=\"tabBoxdisp\" style=\"margin-top:10px\"><div class=\"tabtitdisp redondotop\" style=\"color:#FFF; background:#9D293F;\"><div class=\"float-left\"><h2 class=\"upcase size18\">HF FÉNIX LISBOA<\/h2> Lisboa\/Portugal<\/div><div class=\"float-right text-right\" style=\"width:350px;\"><img src=\"\/rootimages\/icons\/star_white.png\" width=\"14\" height=\"13\" \/><img src=\"\/rootimages\/icons\/star_white.png\" width=\"14\" height=\"13\" \/><img src=\"\/rootimages\/icons
以下是完整数据:http://notepad.cc/share/AReb0eaiqH
那么无论如何我可以在没有\的情况下修复html内容以使其适用于HTML解析器吗?
答案 0 :(得分:0)
解决方案可能就像更换&#39; \&#34;&#39; (反斜杠报价)在您的数据中使用&#39;&#34;&#39;&#39; (引用),例如:
data = data.Replace("\\\"","\"");
(您也可能必须删除第一个和最后一个引号(如果存在))。