我知道cURL会下载一个完整的文件。
我真正想要的是获取页面上的所有链接并根据我的具体标准,链接位置等进行评估,并决定是否应该抓取该页面并对其进行解析以获取信息。
更具体地说,我希望找到与娱乐事件有关的链接,并解析数据并将其存储在我的MySQL数据库中,以便为我所在地区的事件填充网站。
有人会想到如何完成?
-Jason
答案 0 :(得分:2)
我建议您将精力放在现有的网络抓取工具/索引器解决方案上,而不是自己在代码中或使用CURL等工具实现。
例如,请参阅Lucene。
答案 1 :(得分:1)
其他答案中的解决方案听起来很有趣,但我只是使用C#/Mono和HTML Agility Pack做了类似且简单的事情。
答案 2 :(得分:0)
如果你想要的只是页面上链接的枚举,你可以使用.NET WebBrowser和DOM来做到这一点。挖掘我的代码...我会回复你。
答案 3 :(得分:0)
您没有指定编程语言。如果您愿意使用Java自定义它,Apache Droids可能适合您。它被计划为最小爬虫,您可以根据自己的特定需求进行自定义。
答案 4 :(得分:0)
如上所述,你没有提到一种语言。如果您使用Ruby,可以使用蜘蛛网宝石。你会手动告诉它不要找到任何链接(它会默认自动抓取所有链接)并在你说需要评估它们的每个页面上自己做这些,然后如果你想要它们可以手动将它们放入队列被抓了。
看起来好像Ruby on Rails是由godaddy共享托管支持的,如果这就是你的内容。
(刚看到这是3年前,可能会帮助其他人!)