Question

我需要定期从网站上获取产品数据，并想知道是否有人知道一个好的软件程序？我试过Mozenda 但从长远来看，这是一个月度订阅和昂贵。显然，免费的东西是最好的，但我也不介意付钱。只需要一个可靠且不需要太多编程知识的合适程序。

Answer 1

如果您了解python，可以尝试使用ScraperWiki.com。

Answer 2

我已尝试Screen-Scraper并发现它易于使用。该应用程序有多个版本：基本（免费），专业版和企业版。此外，还支持多个平台。

Answer 3

我真的很喜欢iMacros。您可以通过完全免费的Firefox扩展（也有IE版本）给它一个测试驱动器以查看它是否满足您的需求，但是还有更多全功能应用程序和“服务器”版本具有更多功能和能力无人看管的方式。

Answer 4

聘请程序员这样做，这样只需要一次性费用。我经常在自由职业网站上看到类似的项目，例如Elance和oDesk。

Answer 5

以下是其他一些需要考虑的选择：

从提供商处许可数据。打电话给他们并问他们。
使用Amazon Mechanical Turk让人们复制并粘贴并格式化它。它们很便宜。
对于自动化，它取决于HTML的复杂程度和更改的频率。如果它非常简单，您可以使用Excel的Web数据导入。

Answer 6

您可以使用完全免费的IRobotSoft的irobot，并提供比其他付费软件更多的功能。在这里观看演示http://irobotsoft.com/help/，看它是多么简单。

他们论坛上的问题得到了很快的回答。

Answer 7

Scrape.it是免费的开源软件，可在github上找到。

Answer 8

您可以尝试UiPath Studio来解决所有抓取问题。该产品构建于强大的SDK之上，专用于抓取和UI自动化。它附带Web Scraping wizard，非常适合从网页中提取结构化数据。如果您需要刮取的数据不是结构化的，那么我建议您使用屏幕刮擦向导。甚至可以在后台或隐藏的IE浏览器中完成此提取。您可以在IDE中轻松开发工作流程，然后单独执行它们或将它们集成到您的应用程序中。

Answer 9

您可以试用我的软件FMiner，我已经开发了5年以上，它可以记录宏并模拟人工操作（点击，填充...），这里有一些tutorial videos来展示如何使用它。欢迎评价它！

Answer 10

Visual Web ripper是最好的抓取工具之一，AM在过去5年中使用这些工具来废弃在线数据

Answer 11

我肯定会建议从雅虎（http://developer.yahoo.com/yql/）

查看YQL

它使用标记来定义网页的结构，然后让您对其运行查询以提取数据。这是一个非常巧妙的想法，有很多积极维护的标记结构，用于抓取热门网站。

Answer 12

scrape.ly可让您通过编写简单的网址来抓取网站。

例如，要从stackoverflow中删除所有问题，您可以将以下内容写入浏览器地址栏。

http://scrape.ly/s/{http://stackoverflow.com/}{Printing the data and placement of tree elements}*
{'ask':'//*[@id="question"]/table/tbody/tr[1]/td[2]/div/div[1]/p[1]','username':'user3011391'}

网址的作用：

转到stackoverflow.com
获取所有提供的示例链接（“打印数据...”）
将问题文本解析为“提问”栏，将提问者的用户名解压缩为“用户名”
从http://scrape.ly/download/fMxj2x.csv

Answer 13

看看Visual Web Ripper。它花了你一些钱，但我认为这是值得的。 http://www.visualwebripper.com/ProductInformation/Features.aspx

Answer 14

你试过Kimono Labs吗？使用直观的UI设置它是免费且快速的。 Kimono基本上允许您通过使用通过点击界面创建的CSS选择器训练API来抓取网站。它允许批量网址抓取，分页，属性选择，计划抓取等，并具有一堆内置集成。

Answer 15

尝试 Data Scraping Studio - 免费软件工具。

您可以使用point and click scraper chrome extension创建抓取代理，然后将这些代理导出到多线程桌面应用中的文件（* .scraping）中，以进行批量抓取和更高级的功能。

Answer 16

http://trrdrr-scrapper.rhcloud.com是基于网络的网络抓取工具，目前它的功能有限，但它可以废弃数据列表。（例如：废弃stackoverflow.com的问题及其autor列表）

我喜欢添加分页，scheuler，正则表达式支持，使用html类废弃的功能，id ...

一个很好的Web数据提取/屏幕抓取程序？

16 个答案: