如何将一个html网站的一部分集成到java程序中?

时间:2014-05-29 11:28:04

标签: java html web-crawler

鉴于一个HTML网站显示外面的温度和其他不重要的信息和平:

<div style="">15</div>

15 - 是我的目的地号码,我想将其作为变量提取。

现在我要做的是,Java程序将进入网站,搜索特定的HTML代码行(温度= 15;),找到后,它必须显示如下:{{3} }

我只想知道,我应该使用什么语法让程序请求该号码。

2 个答案:

答案 0 :(得分:0)

从网站提取信息称为抓取抓取

您基本上可以访问该网站,获取HTML源代码并搜索您的元素。您可以使用正则表达式搜索,或者(更常见)使用 Jsoup 等解析器进行搜索。

你会在Jsoup的官方网站上找到很多有用的例子(例如http://jsoup.org/cookbook/extracting-data/example-list-links)。 Jsoup将HTML源解析为具有元素和节点的类似DOM的结构。您可以搜索特定节点,例如适用于所有DIV元素。然后你可以迭代它们并获得温度。

答案 1 :(得分:0)

有一些名为scraper的工具可以从网络中提取信息。很多Java API可以让你自己编写刮刀。您可以尝试使用JSoupHTMLUnitJaunt