可编程网络抓取软件/ API

时间:2011-05-09 13:15:12

标签: web-scraping

我正在寻找一种屏幕/网络抓取解决方案,它允许我以下列方式从网页中提取数据:

  1. 我通过某种用户界面/工作台手动选择元素,表格/段落。
  2. 我使用基于标签和模式的已定义元素来重复任务。
  3. 类似于在Excel中录制宏,然后编程和参数化代码。我想要这样的东西的原因是为了提高我们搜索的众多网站的生产力。

3 个答案:

答案 0 :(得分:0)

我听说过有关网页抓取的iMacros的好消息:http://wiki.imacros.net/Data_Extraction

答案 1 :(得分:0)

python中的

http://scrapy.org/

这个有很多你可以使用的库 http://www.httrack.com/

答案 2 :(得分:0)

你可以使用Rebol,它在语言本身中有一个非常好的解析引擎,不到1 Mo! http://reboltutorial.com/index.php?s=parse&x=Search

您可以通过cmdline,PHP,Java ...与C#进行交互...(网站上的C#和PHP示例)