提供用于网络抓取的输入数据

时间:2014-04-01 07:29:40

标签: java web-scraping

我想废弃以下网站的数据:
http://www.upmandiparishad.in/commodityWiseAll.aspx

有两个输入元素CommodityDate。如何提供这些值并检索结果信息?

1 个答案:

答案 0 :(得分:0)

要从Java中提取网页数据,您可以使用jsoup

要提供输入元素,您需要了解浏览器最初提供的方式。 基本上,客户端和服务器之间的请求响应有两种最常用的方法:

  • GET - 从指定资源请求数据
  • POST - 将要处理的数据提交到指定资源

您可以找到有关他们的更多信息here

当您选择CommodityDate输入值时,您可以通过检查网络请求来调查用于向服务器提供这些值的方法。例如,在Chrome中,您可以按F12并选择Network标签,以检查发送到浏览器和从浏览器发送的信息。

当您找到提供数据的方式时,您可以相应地形成您的HTTP请求,以通过jsoup或类似的库提供相同的数据。
例如,以下是您可以为请求提供简单输入字段的方法:

Document doc = Jsoup.connect("http://example.com/")
.data("some_input_1", "some_data_1")
.data("some_input_2", "some_data_2")
.post();

这只是为了让你开始,它绝不是一个完整的答案。您需要表现出真正的努力才能在线搜索答案,因为有很多。

以下是一些可以帮助您入门的内容: