标签: java html html-content-extraction
并非每个网站都能很好地使用XML Feed,API等公开他们的数据
我怎样才能从网站上提取信息?例如:
... <div> <div> <span id="important-data">information here</span> </div> </div> ...
我来自Java编程和Apache XMLBeans编码的背景。当我知道结构和数据在一个已知的标签之间时,是否有类似于解析HTML的东西?
由于
答案 0 :(得分:4)
Here's an article有几个用java编写的屏幕抓取工具。
一般来说,听起来你想看看regular expressions,它会进行你正在寻找的模式匹配。
希望有所帮助!
答案 1 :(得分:3)
Java有几个开源HTML解析器。
我过去曾使用JTidy,并且运气好。它将为您提供html页面的DOM,您应该能够从那里获取所需的标签。
答案 2 :(得分:0)
如果你对它持开放态度,那么ruby + hpricot就会让它变得微不足道。您可以使用css或xpath选择器(或两者)来查找(和操作)HTML中的内容。抓取文档,解析它,并在示例中提取文本实际上是一行代码。