我在ubuntu上使用nutch和solr。我想使用php来查询数据库或其他方法,以从索引页面返回到任何特定URL或域的链接数组。请指出我正确的方向。
我使用本教程设置了蜘蛛http://nlp.solutions.asia/?p=180
我还要注意,首选的是php语言选项或者通过php curl或命令行界面与nutch或sorl应用程序的api接口。 感谢
答案 0 :(得分:0)
我注意到数据库里面存在链接,因此在解析每行的链接后,执行以下查询将获得指向creativecommons.org域的入站链接:
SELECT * 来自网页 在哪里链接LIKE'%creativecommons.org%'