如何使用java过滤爬虫数据?

时间:2016-08-02 05:33:32

标签: java web-crawler jsoup

我们已经使用jsoup lib获取了URL并存储在数据库中。现在我们正在寻找数据并在db中存储,但我们只查找特定字段,而不是存储整个页面。 例如:http://www.flipkart.com/shoes/ 当我们获取此链接时,我们需要品牌,价格,评论等领域。 用java代码!! 请帮忙 !

1 个答案:

答案 0 :(得分:-1)

有两种方法可以过滤掉整个内容,

  1. 在响应内容上应用Regex并提取所需的字段。
  2. 使用xpath,您可以提取所需的字段(首选和推荐的解析方式)。
  3. 例如:1 - 正则表达式

    1. 为您选择的页面生成regex模式。
    2. 获取响应String并应用模式并检索数据。
    3. 例如:2 - XPath

      1. 识别methodolgy以唯一地定位每个html元素(或列表)
      2. html/xml形式获取回复,并在检索到的内容上应用xpath并获取数据。