应用错误收集

时间：2009-04-19 15:20:03

标签： web-crawler

我知道cURL会下载一个完整的文件。

我真正想要的是获取页面上的所有链接并根据我的具体标准，链接位置等进行评估，并决定是否应该抓取该页面并对其进行解析以获取信息。

更具体地说，我希望找到与娱乐事件有关的链接，并解析数据并将其存储在我的MySQL数据库中，以便为我所在地区的事件填充网站。

有人会想到如何完成？

-Jason

答案 0 :(得分：2)

我建议您将精力放在现有的网络抓取工具/索引器解决方案上，而不是自己在代码中或使用CURL等工具实现。

例如，请参阅Lucene。

答案 1 :(得分：1)

其他答案中的解决方案听起来很有趣，但我只是使用C#/Mono和HTML Agility Pack做了类似且简单的事情。

答案 2 :(得分：0)

如果你想要的只是页面上链接的枚举，你可以使用.NET WebBrowser和DOM来做到这一点。挖掘我的代码...我会回复你。

答案 3 :(得分：0)

您没有指定编程语言。如果您愿意使用Java自定义它，Apache Droids可能适合您。它被计划为最小爬虫，您可以根据自己的特定需求进行自定义。

答案 4 :(得分：0)

如上所述，你没有提到一种语言。如果您使用Ruby，可以使用蜘蛛网宝石。你会手动告诉它不要找到任何链接（它会默认自动抓取所有链接）并在你说需要评估它们的每个页面上自己做这些，然后如果你想要它们可以手动将它们放入队列被抓了。

看起来好像Ruby on Rails是由godaddy共享托管支持的，如果这就是你的内容。

（刚看到这是3年前，可能会帮助其他人！）