我需要定期从网站上获取产品数据,并想知道是否有人知道一个好的软件程序?我试过Mozenda 但从长远来看,这是一个月度订阅和昂贵。显然,免费的东西是最好的,但我也不介意付钱。只需要一个可靠且不需要太多编程知识的合适程序。
答案 0 :(得分:4)
如果您了解python,可以尝试使用ScraperWiki.com。
答案 1 :(得分:2)
我已尝试Screen-Scraper并发现它易于使用。该应用程序有多个版本:基本(免费),专业版和企业版。此外,还支持多个平台。
答案 2 :(得分:1)
我真的很喜欢iMacros。您可以通过完全免费的Firefox扩展(也有IE版本)给它一个测试驱动器以查看它是否满足您的需求,但是还有更多全功能应用程序和“服务器”版本具有更多功能和能力无人看管的方式。
答案 3 :(得分:1)
答案 4 :(得分:1)
以下是其他一些需要考虑的选择:
从提供商处许可数据。打电话给他们并问他们。
使用Amazon Mechanical Turk让人们复制并粘贴并格式化它。它们很便宜。
对于自动化,它取决于HTML的复杂程度和更改的频率。如果它非常简单,您可以使用Excel的Web数据导入。
答案 5 :(得分:1)
您可以使用完全免费的IRobotSoft的irobot,并提供比其他付费软件更多的功能。在这里观看演示http://irobotsoft.com/help/,看它是多么简单。
他们论坛上的问题得到了很快的回答。
答案 6 :(得分:1)
Scrape.it是免费的开源软件,可在github上找到。
答案 7 :(得分:1)
您可以尝试UiPath Studio来解决所有抓取问题。该产品构建于强大的SDK之上,专用于抓取和UI自动化。它附带Web Scraping wizard,非常适合从网页中提取结构化数据。如果您需要刮取的数据不是结构化的,那么我建议您使用屏幕刮擦向导。甚至可以在后台或隐藏的IE浏览器中完成此提取。 您可以在IDE中轻松开发工作流程,然后单独执行它们或将它们集成到您的应用程序中。
答案 8 :(得分:1)
您可以试用我的软件FMiner,我已经开发了5年以上,它可以记录宏并模拟人工操作(点击,填充...),这里有一些tutorial videos来展示如何使用它。欢迎评价它!
答案 9 :(得分:1)
Visual Web ripper是最好的抓取工具之一,AM在过去5年中使用这些工具来废弃在线数据
答案 10 :(得分:0)
我肯定会建议从雅虎(http://developer.yahoo.com/yql/)
查看YQL它使用标记来定义网页的结构,然后让您对其运行查询以提取数据。这是一个非常巧妙的想法,有很多积极维护的标记结构,用于抓取热门网站。
答案 11 :(得分:0)
scrape.ly可让您通过编写简单的网址来抓取网站。
例如,要从stackoverflow中删除所有问题,您可以将以下内容写入浏览器地址栏。
http://scrape.ly/s/{http://stackoverflow.com/}{Printing the data and placement of tree elements}*
{'ask':'//*[@id="question"]/table/tbody/tr[1]/td[2]/div/div[1]/p[1]','username':'user3011391'}
网址的作用:
答案 12 :(得分:0)
看看Visual Web Ripper。它花了你一些钱,但我认为这是值得的。 http://www.visualwebripper.com/ProductInformation/Features.aspx
答案 13 :(得分:0)
你试过Kimono Labs吗?使用直观的UI设置它是免费且快速的。 Kimono基本上允许您通过使用通过点击界面创建的CSS选择器训练API来抓取网站。它允许批量网址抓取,分页,属性选择,计划抓取等,并具有一堆内置集成。
答案 14 :(得分:0)
尝试 Data Scraping Studio - 免费软件工具。
您可以使用point and click scraper chrome extension创建抓取代理,然后将这些代理导出到多线程桌面应用中的文件(* .scraping)中,以进行批量抓取和更高级的功能。
答案 15 :(得分:-1)
http://trrdrr-scrapper.rhcloud.com是基于网络的网络抓取工具,目前它的功能有限,但它可以废弃数据列表。 (例如:废弃stackoverflow.com的问题及其autor列表)
我喜欢添加分页,scheuler,正则表达式支持,使用html类废弃的功能,id ...