什么是一些好的java库来搜索和从网页中抓取数据。

时间:2011-07-29 01:15:08

标签: java web-crawler web-scraping jsoup webharvest

有哪些好的开源java库可以从网页中搜索和抓取数据并将其粘贴到数据库中。例如,假设我有一个页面,如:

<tr><td><b>Address:</b></td>
<td colspan=3>123 My Street        </td></tr>

“地址:”是关键,但我实际上是想让“123 My Street”中间有一堆html标签和空格。理想情况下,我想获取字符串“Address:”后面的td之间的值。似乎JSoup可以做查找,但我没有看到如何做偏移的好例子(我可能已经错过了它)。是否有一个处理键/值的库?

我也有兴趣了解类似于Kapow Extraction Browser的UI脚本的任何开源(MIT / Apache)计划。

感谢。

2 个答案:

答案 0 :(得分:2)

试试Web-Harvest。 它是用Java编写的开源爬虫 它可以用作Java库,命令行应用程序或独立IDE。

您可以使用<xpath>元素从XHTML文档中提取任何值。

答案 1 :(得分:1)

这是一个很好的开源解析器列表:http://java-source.net/open-source/html-parsers

我使用TagSoup非常成功地解析了数以万计的网页。至于“键值”关系,这是你必须要处理的事情。