我正在编写一个搜索引擎,该搜索引擎会发送给我所有的公司附属网站解析HTML并将其存储在数据库中。这些网站真的很旧,并且在100000个网站中不符合HTML标准,大约25%的网站有糟糕的HTML,这使得难以解析。我需要编写一个c#代码,可以修复坏的html,然后解析内容或提出解决上述问题的解决方案。如果你有想法,那么实际的提示或代码片段会有所帮助。
答案 0 :(得分:4)
只需使用Html Agility Pack即可。解析错误的html代码是非常好的
答案 1 :(得分:1)
答案 2 :(得分:1)
使用tagsoup解析器,我确定它是one for C#。然后,您可以将DOM序列化为更有效或更低效的HTML,具体取决于该解析器是否符合HTML DTD。或者,您可以使用HTML Tidy,这将至少清除最严重的故障。
正则表达式不适用于此任务。