解析html页面并将内容(标题,文本等)存储到数据库中

时间:2010-09-16 17:03:16

标签: java web-crawler web-analytics

有没有人知道一些开源工具来解析html页面,过滤Ads,JS等获取标题,文本。我的应用程序的前端基于LAMP。所以我需要解析html页面并将它们存储到Mysql中。并使用这些数据填充首页。

我知道一些工具:Heritrix,Nutch。但似乎他们是爬行者。

感谢。 约瑟夫

1 个答案:

答案 0 :(得分:0)

这取决于网页上“文字”的含义。我通过使用apache HttpClient库抓取一个网页然后使用dom4j寻找一个特定的标签来提取文本来做类似的事情。但实际上你需要与Google使用的搜索引擎相同类型的抓取工具。您正在模拟他们爬网站时所执行的基本步骤。提取信息。如果您详细了解要从页面中检索哪种信息,将会很有帮助。