Question

我有500个HTML文件存储在我的计算机上，我希望从所有这些文件中提取标题和描述，并将其存储在我的SQLite数据库中（如果可能，使用java）。有没有简单的方法呢？

碰到了像Crawler4j和JSoup这样的几个工具，它们看起来很复杂，足以让我头脑发热......

Answer 1

您可以使用简单的正则表达式

String target = someString.replaceAll("<[^>]*>", "");

假设您的非HTML不包含任何＆lt;或者＆gt;并且输入字符串的结构正确。

如果输入字符串是SomethingAnother Thing，那么上面会导致SomethingAnother Thing。

在需要多个标签的情况下，我们可以执行以下操作：

String target = someString.replaceAll("(?i)<td[^>]*>", " ").replaceAll("\\s+", " ").trim();

这将HTML替换为单个空格，然后折叠空白，然后修剪任意两端。

Answer 2

我最喜欢的Java处理HTML库是one written by Henri Sivonen。

解析为DOM树后，您可以根据需要应用XPath搜索或XSL转换。或者你将放置一个简单的SAX处理程序来提取/收集所需的文本。