用于网站解析的库/工具

时间:2010-09-12 00:21:27

标签: hadoop libraries web-crawler

我想开始将大量原始HTML页面解析为语义数据结构。

对社区对此类任务的各种可用工具的意见感兴趣,特别是任何语言的各种有用的库。

到目前为止,计划使用Hadoop管理大量处理,但对备选方案感到好奇。

1 个答案:

答案 0 :(得分:0)

首先,您需要下载页面源,然后创建一个DOM树。 如果您使用C#进行编码,则可以使用以下工具来创建DOM树。

1)http://htmlagilitypack.codeplex.com/
2)http://www.majestic12.co.uk/projects/html_parser.php

第一个易于使用,但第二个更快且内存友好,如果你想创建一个强大的应用程序,我建议你使用第二个

然后您可以使用以下方法从网页中提取有用的内容:

http://www.chrisspen.com/blog/how-to-extract-a-webpages-main-article-content.html

以及通过Google搜索从网页中提取内容的许多其他文章(从网页中提取主要内容)

希望有所帮助