我有500个HTML文件存储在我的计算机上,我希望从所有这些文件中提取标题和描述,并将其存储在我的SQLite数据库中(如果可能,使用java)。有没有简单的方法呢?
碰到了像Crawler4j和JSoup这样的几个工具,它们看起来很复杂,足以让我头脑发热......
答案 0 :(得分:1)
您可以使用简单的正则表达式
String target = someString.replaceAll("<[^>]*>", "");
假设您的非HTML不包含任何&lt;或者&gt;并且输入字符串的结构正确。
如果输入字符串是SomethingAnother Thing,那么上面会导致SomethingAnother Thing。
在需要多个标签的情况下,我们可以执行以下操作:
String target = someString.replaceAll("(?i)<td[^>]*>", " ").replaceAll("\\s+", " ").trim();
这将HTML替换为单个空格,然后折叠空白,然后修剪任意两端。
答案 1 :(得分:1)
我最喜欢的Java处理HTML库是one written by Henri Sivonen。
解析为DOM树后,您可以根据需要应用XPath搜索或XSL转换。 或者你将放置一个简单的SAX处理程序来提取/收集所需的文本。
但请始终牢记if tool-sharpening is worth the time ...