应用错误收集

时间：2010-10-22 10:40:33

标签： screen-scraping web-scraping

寻找一些指导。我要求从特定来源获取文章内容，简单地用于数据分析。因此，我们必须获取最新的文章，并将它们存储在我们的数据库中以便以后处理。

我不确定最好的方法。我们用于当前新闻检索的代码（来自新闻源提供者）从UNIX上的C运行。基本上使用CURL并解析XML以存储在数据库中。

但我现在需要的解决方案是不同的。每个网站都明显不同。基本上我只是希望能够有一个cron工作，可以根据需要调用相关网站上的最新文章。

任何想法都赞赏。我现在也正在考虑将AutomationAnywhere作为一种快速解决方案，如果它适用于我们。

谢谢！

的Manoj

答案 0 :(得分：0)

iMacros是web scraping的一个很好的解决方案。

您可以在Linux上运行iMacros for Firefox（免费/开源）并通过command line控制它。

在Windows上，您还可以使用付费Scripting Edition，它可以提取向导并支持Flash自动化等。

答案 1 :(得分：0)

看看IRobotSoft可视化网络刮刀。它会给你一个快速的开始。

答案 2 :(得分：0)

由于每个网站都不同，因此需要花费大量精力来设置强大的抓取解决方案。一个简单的替代方法是为每个网站找到RSS / Atom提要，以便您可以以一致的格式提取文章内容。如果网站没有可用的订阅源，则可以跳过或尝试抓取。