有哪些好的开源java库可以从网页中搜索和抓取数据并将其粘贴到数据库中。例如,假设我有一个页面,如:
<tr><td><b>Address:</b></td>
<td colspan=3>123 My Street </td></tr>
“地址:”是关键,但我实际上是想让“123 My Street”中间有一堆html标签和空格。理想情况下,我想获取字符串“Address:”后面的td之间的值。似乎JSoup可以做查找,但我没有看到如何做偏移的好例子(我可能已经错过了它)。是否有一个处理键/值的库?
我也有兴趣了解类似于Kapow Extraction Browser的UI脚本的任何开源(MIT / Apache)计划。
感谢。
答案 0 :(得分:2)
试试Web-Harvest。 它是用Java编写的开源爬虫 它可以用作Java库,命令行应用程序或独立IDE。
您可以使用<xpath>
元素从XHTML文档中提取任何值。
答案 1 :(得分:1)
这是一个很好的开源解析器列表:http://java-source.net/open-source/html-parsers
我使用TagSoup非常成功地解析了数以万计的网页。至于“键值”关系,这是你必须要处理的事情。