我想开始将大量原始HTML页面解析为语义数据结构。
对社区对此类任务的各种可用工具的意见感兴趣,特别是任何语言的各种有用的库。
到目前为止,计划使用Hadoop管理大量处理,但对备选方案感到好奇。
答案 0 :(得分:0)
首先,您需要下载页面源,然后创建一个DOM树。 如果您使用C#进行编码,则可以使用以下工具来创建DOM树。
1)http://htmlagilitypack.codeplex.com/
2)http://www.majestic12.co.uk/projects/html_parser.php
第一个易于使用,但第二个更快且内存友好,如果你想创建一个强大的应用程序,我建议你使用第二个
然后您可以使用以下方法从网页中提取有用的内容:
http://www.chrisspen.com/blog/how-to-extract-a-webpages-main-article-content.html
以及通过Google搜索从网页中提取内容的许多其他文章(从网页中提取主要内容)
希望有所帮助