java - 如何使用java过滤爬虫数据？ - Thinbug

如何使用java过滤爬虫数据？

时间：2016-08-02 05:33:32

标签： java web-crawler jsoup

我们已经使用jsoup lib获取了URL并存储在数据库中。现在我们正在寻找数据并在db中存储，但我们只查找特定字段，而不是存储整个页面。例如：http://www.flipkart.com/shoes/ 当我们获取此链接时，我们需要品牌，价格，评论等领域。用java代码!! 请帮忙！

1 个答案:

答案 0 :(得分：-1)

有两种方法可以过滤掉整个内容，

在响应内容上应用Regex并提取所需的字段。
使用xpath，您可以提取所需的字段（首选和推荐的解析方式）。

例如：1 - 正则表达式

为您选择的页面生成regex模式。
获取响应String并应用模式并检索数据。

例如：2 - XPath

识别methodolgy以唯一地定位每个html元素（或列表）
以html/xml形式获取回复，并在检索到的内容上应用xpath并获取数据。