从HTML文件中提取文本并使用Java存储在SQLite中

时间:2015-06-03 12:05:20

标签: java sqlite web-crawler

我有500个HTML文件存储在我的计算机上,我希望从所有这些文件中提取标题和描述,并将其存储在我的SQLite数据库中(如果可能,使用java)。有没有简单的方法呢?

碰到了像Crawler4j和JSoup这样的几个工具,它们看起来很复杂,足以让我头脑发热......

2 个答案:

答案 0 :(得分:1)

您可以使用简单的正则表达式

String target = someString.replaceAll("<[^>]*>", "");

假设您的非HTML不包含任何&lt;或者&gt;并且输入字符串的结构正确。

如果输入字符串是SomethingAnother Thing,那么上面会导致SomethingAnother Thing。

在需要多个标签的情况下,我们可以执行以下操作:

String target = someString.replaceAll("(?i)<td[^>]*>", " ").replaceAll("\\s+", " ").trim();

这将HTML替换为单个空格,然后折叠空白,然后修剪任意两端。

答案 1 :(得分:1)

我最喜欢的Java处理HTML库是one written by Henri Sivonen

解析为DOM树后,您可以根据需要应用XPath搜索或XSL转换。 或者你将放置一个简单的SAX处理程序来提取/收集所需的文本。

但请始终牢记if tool-sharpening is worth the time ...