一个很好的Web数据提取/屏幕抓取程序?

时间:2010-02-25 13:13:49

标签: screen-scraping data-mining

我需要定期从网站上获取产品数据,并想知道是否有人知道一个好的软件程序?我试过Mozenda 但从长远来看,这是一个月度订阅和昂贵。显然,免费的东西是最好的,但我也不介意付钱。只需要一个可靠且不需要太多编程知识的合适程序。

16 个答案:

答案 0 :(得分:4)

如果您了解python,可以尝试使用ScraperWiki.com。

答案 1 :(得分:2)

我已尝试Screen-Scraper并发现它易于使用。该应用程序有多个版本:基本(免费),专业版和企业版。此外,还支持多个平台。

答案 2 :(得分:1)

我真的很喜欢iMacros。您可以通过完全免费的Firefox扩展(也有IE版本)给它一个测试驱动器以查看它是否满足您的需求,但是还有更多全功能应用程序和“服务器”版本具有更多功能和能力无人看管的方式。

答案 3 :(得分:1)

聘请程序员这样做,这样只需要一次性费用。我经常在自由职业网站上看到类似的项目,例如ElanceoDesk

答案 4 :(得分:1)

以下是其他一些需要考虑的选择:

  1. 从提供商处许可数据。打电话给他们并问他们。

  2. 使用Amazon Mechanical Turk让人们复制并粘贴并格式化它。它们很便宜。

  3. 对于自动化,它取决于HTML的复杂程度和更改的频率。如果它非常简单,您可以使用Excel的Web数据导入。

答案 5 :(得分:1)

您可以使用完全免费的IRobotSoft的irobot,并提供比其他付费软件更多的功能。在这里观看演示http://irobotsoft.com/help/,看它是多么简单。

他们论坛上的问题得到了很快的回答。

答案 6 :(得分:1)

Scrape.it是免费的开源软件,可在github上找到。

答案 7 :(得分:1)

您可以尝试UiPath Studio来解决所有抓取问题。该产品构建于强大的SDK之上,专用于抓取和UI自动化。它附带Web Scraping wizard,非常适合从网页中提取结构化数据。如果您需要刮取的数据不是结构化的,那么我建议您使用屏幕刮擦向导。甚至可以在后台或隐藏的IE浏览器中完成此提取。 您可以在IDE中轻松开发工作流程,然后单独执行它们或将它们集成到您的应用程序中。

答案 8 :(得分:1)

您可以试用我的软件FMiner,我已经开发了5年以上,它可以记录宏并模拟人工操作(点击,填充...),这里有一些tutorial videos来展示如何使用它。欢迎评价它!

答案 9 :(得分:1)

Visual Web ripper是最好的抓取工具之一,AM在过去5年中使用这些工具来废弃在线数据

答案 10 :(得分:0)

我肯定会建议从雅虎(http://developer.yahoo.com/yql/

查看YQL

它使用标记来定义网页的结构,然后让您对其运行查询以提取数据。这是一个非常巧妙的想法,有很多积极维护的标记结构,用于抓取热门网站。

答案 11 :(得分:0)

scrape.ly可让您通过编写简单的网址来抓取网站。

例如,要从stackoverflow中删除所有问题,您可以将以下内容写入浏览器地址栏。

http://scrape.ly/s/{http://stackoverflow.com/}{Printing the data and placement of tree elements}*
{'ask':'//*[@id="question"]/table/tbody/tr[1]/td[2]/div/div[1]/p[1]','username':'user3011391'}

网址的作用:

  1. 转到stackoverflow.com
  2. 获取所有提供的示例链接(“打印数据...”)
  3. 将问题文本解析为“提问”栏,将提问者的用户名解压缩为“用户名”
  4. http://scrape.ly/download/fMxj2x.csv
  5. 下载提取的数据.csv文件

答案 12 :(得分:0)

看看Visual Web Ripper。它花了你一些钱,但我认为这是值得的。 http://www.visualwebripper.com/ProductInformation/Features.aspx

答案 13 :(得分:0)

你试过Kimono Labs吗?使用直观的UI设置它是免费且快速的。 Kimono基本上允许您通过使用通过点击界面创建的CSS选择器训练API来抓取网站。它允许批量网址抓取,分页,属性选择,计划抓取等,并具有一堆内置集成。

答案 14 :(得分:0)

尝试 Data Scraping Studio - 免费软件工具。

您可以使用point and click scraper chrome extension创建抓取代理,然后将这些代理导出到多线程桌面应用中的文件(* .scraping)中,以进行批量抓取和更高级的功能。

Data Scraping Studio

答案 15 :(得分:-1)

http://trrdrr-scrapper.rhcloud.com是基于网络的网络抓取工具,目前它的功能有限,但它可以废弃数据列表。 (例如:废弃stackoverflow.com的问题及其autor列表)

我喜欢添加分页,scheuler,正则表达式支持,使用html类废弃的功能,id ...