如何创建用于抓取特定网页的API

时间:2013-03-11 20:24:47

标签: javascript web-crawler

我想设计/创建一个API来抓取网页上的数据(网页链接将作为输入提供)并以JSON / xml格式返回数据。

我正在寻求帮助,以便我可以开始寻找特定的方向。

1 个答案:

答案 0 :(得分:0)

问题不是很清楚,但如果您只是想解析输入HTML页面并从中获取链接,您可以执行以下操作

  1. 获取HTML页面作为输入流
  2. 使用jtidy或任何其他HTML DOM解析器创建一个DOM。
  3. 获得DOM后,获取所有
  4. ,href,元素,您将获得所有外链。
  5. 通常,当您说抓取时,它应该涉及多个页面,在图表中,您可以使用这些链接从一个页面移动到另一个页面。因此抓取特定页面不正确。