应用错误收集

解析html页面并将内容（标题，文本等）存储到数据库中

时间：2010-09-16 17:03:16

标签： java web-crawler web-analytics

有没有人知道一些开源工具来解析html页面，过滤Ads，JS等获取标题，文本。我的应用程序的前端基于LAMP。所以我需要解析html页面并将它们存储到Mysql中。并使用这些数据填充首页。

我知道一些工具：Heritrix，Nutch。但似乎他们是爬行者。

感谢。约瑟夫

1 个答案:

答案 0 :(得分：0)

这取决于网页上“文字”的含义。我通过使用apache HttpClient库抓取一个网页然后使用dom4j寻找一个特定的标签来提取文本来做类似的事情。但实际上你需要与Google使用的搜索引擎相同类型的抓取工具。您正在模拟他们爬网站时所执行的基本步骤。提取信息。如果您详细了解要从页面中检索哪种信息，将会很有帮助。

解析html页面并将内容（标题，文本等）存储到数据库中
如何在RoR中上传文本文件并将内容解析到数据库中
如何解析CSV文件并将其数据存储到数据库中？
我无法将文本区域的内容放入我的数据库中
无法将编辑的内容存储到数据库
Android json解析并存储到数据库中
将文本数组存储到Parse数据库中
Python解析html数据并存储到数据库中
将文本文件的内容传递到Jsoup并不会解析所有的html
在WordPress文本编辑器中修改页面的缩略图，子标题，标题，元等

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？