Question

有哪些好的开源java库可以从网页中搜索和抓取数据并将其粘贴到数据库中。例如，假设我有一个页面，如：

<tr><td><b>Address:</b></td>
<td colspan=3>123 My Street        </td></tr>

“地址：”是关键，但我实际上是想让“123 My Street”中间有一堆html标签和空格。理想情况下，我想获取字符串“Address：”后面的td之间的值。似乎JSoup可以做查找，但我没有看到如何做偏移的好例子（我可能已经错过了它）。是否有一个处理键/值的库？

我也有兴趣了解类似于Kapow Extraction Browser的UI脚本的任何开源（MIT / Apache）计划。

感谢。

Answer 1

试试Web-Harvest。它是用Java编写的开源爬虫它可以用作Java库，命令行应用程序或独立IDE。

您可以使用<xpath>元素从XHTML文档中提取任何值。

Answer 2

我使用TagSoup非常成功地解析了数以万计的网页。至于“键值”关系，这是你必须要处理的事情。