需要检索特定新闻来源/博客等内容。第三方软件,还是自己构建?

时间:2010-10-22 10:40:33

标签: screen-scraping web-scraping

寻找一些指导。我要求从特定来源获取文章内容,简单地用于数据分析。因此,我们必须获取最新的文章,并将它们存储在我们的数据库中以便以后处理。

我不确定最好的方法。我们用于当前新闻检索的代码(来自新闻源提供者)从UNIX上的C运行。基本上使用CURL并解析XML以存储在数据库中。

但我现在需要的解决方案是不同的。每个网站都明显不同。基本上我只是希望能够有一个cron工作,可以根据需要调用相关网站上的最新文章。

任何想法都赞赏。我现在也正在考虑将AutomationAnywhere作为一种快速解决方案,如果它适用于我们。

谢谢!

的Manoj

3 个答案:

答案 0 :(得分:0)

iMacros是web scraping的一个很好的解决方案。

您可以在Linux上运行iMacros for Firefox(免费/开源)并通过command line控制它。

在Windows上,您还可以使用付费Scripting Edition,它可以提取向导并支持Flash自动化等。

答案 1 :(得分:0)

看看IRobotSoft可视化网络刮刀。它会给你一个快速的开始。

答案 2 :(得分:0)

由于每个网站都不同,因此需要花费大量精力来设置强大的抓取解决方案。一个简单的替代方法是为每个网站找到RSS / Atom提要,以便您可以以一致的格式提取文章内容。如果网站没有可用的订阅源,则可以跳过或尝试抓取。