应用错误收集

时间：2010-09-12 00:21:27

标签： hadoop libraries web-crawler

我想开始将大量原始HTML页面解析为语义数据结构。

对社区对此类任务的各种可用工具的意见感兴趣，特别是任何语言的各种有用的库。

到目前为止，计划使用Hadoop管理大量处理，但对备选方案感到好奇。

答案 0 :(得分：0)

首先，您需要下载页面源，然后创建一个DOM树。如果您使用C＃进行编码，则可以使用以下工具来创建DOM树。

第一个易于使用，但第二个更快且内存友好，如果你想创建一个强大的应用程序，我建议你使用第二个

然后您可以使用以下方法从网页中提取有用的内容：

以及通过Google搜索从网页中提取内容的许多其他文章（从网页中提取主要内容）

希望有所帮助