使用Nutch显示链接到域或页面

时间:2013-03-17 02:04:28

标签: nutch web-crawler

我在ubuntu上使用nutch和solr。我想使用php来查询数据库或其他方法,以从索引页面返回到任何特定URL或域的链接数组。请指出我正确的方向。

我使用本教程设置了蜘蛛http://nlp.solutions.asia/?p=180

我还要注意,首选的是php语言选项或者通过php curl或命令行界面与nutch或sorl应用程序的api接口。 感谢

1 个答案:

答案 0 :(得分:0)

我注意到数据库里面存在链接,因此在解析每行的链接后,执行以下查询将获得指向creativecommons.org域的入站链接:

SELECT * 来自网页 在哪里链接LIKE'%creativecommons.org%'