从网页镜像中提取人类可读的文本

时间:2014-07-08 21:11:10

标签: c#

将已镜像的一组网站中的所有人类可读内容提取到文本文件的最佳方法是什么?

到目前为止,我找到了BeautifulSoup,但我对Python一无所知。

1 个答案:

答案 0 :(得分:0)

HTML Agility Pack提供了使用.NET解析HTML页面的强大工具

旧项目页面:http://htmlagilitypack.codeplex.com/