Question

并非每个网站都能很好地使用XML Feed，API等公开他们的数据

我怎样才能从网站上提取信息？例如：

...
<div>
  <div>
    <span id="important-data">information here</span>
  </div>
</div>
...

我来自Java编程和Apache XMLBeans编码的背景。当我知道结构和数据在一个已知的标签之间时，是否有类似于解析HTML的东西？

由于

Answer 1

Here's an article有几个用java编写的屏幕抓取工具。

一般来说，听起来你想看看regular expressions，它会进行你正在寻找的模式匹配。

希望有所帮助！

Answer 2

Java有几个开源HTML解析器。

我过去曾使用JTidy，并且运气好。它将为您提供html页面的DOM，您应该能够从那里获取所需的标签。

Answer 3

对于这样的任务，Java似乎是一个相当困难的约束。这是一个很难的要求吗？脚本语言非常适合构建真正大量的最后一英里代码。

如果你对它持开放态度，那么ruby + hpricot就会让它变得微不足道。您可以使用css或xpath选择器（或两者）来查找（和操作）HTML中的内容。抓取文档，解析它，并在示例中提取文本实际上是一行代码。