网页抓取和链接评估

时间:2009-04-19 15:20:03

标签: web-crawler

我知道cURL会下载一个完整的文件。

我真正想要的是获取页面上的所有链接并根据我的具体标准,链接位置等进行评估,并决定是否应该抓取该页面并对其进行解析以获取信息。

更具体地说,我希望找到与娱乐事件有关的链接,并解析数据并将其存储在我的MySQL数据库中,以便为我所在地区的事件填充网站。

有人会想到如何完成?

-Jason

5 个答案:

答案 0 :(得分:2)

我建议您将精力放在现有的网络抓取工具/索引器解决方案上,而不是自己在代码中或使用CURL等工具实现。

例如,请参阅Lucene

答案 1 :(得分:1)

其他答案中的解决方案听起来很有趣,但我只是使用C#/MonoHTML Agility Pack做了类似且简单的事情。

答案 2 :(得分:0)

如果你想要的只是页面上链接的枚举,你可以使用.NET WebBrowser和DOM来做到这一点。挖掘我的代码...我会回复你。

答案 3 :(得分:0)

您没有指定编程语言。如果您愿意使用Java自定义它,Apache Droids可能适合您。它被计划为最小爬虫,您可以根据自己的特定需求进行自定义。

答案 4 :(得分:0)

如上所述,你没有提到一种语言。如果您使用Ruby,可以使用蜘蛛网宝石。你会手动告诉它不要找到任何链接(它会默认自动抓取所有链接)并在你说需要评估它们的每个页面上自己做这些,然后如果你想要它们可以手动将它们放入队列被抓了。

看起来好像Ruby on Rails是由godaddy共享托管支持的,如果这就是你的内容。

(刚看到这是3年前,可能会帮助其他人!)