我的nutch工作流程是否正确?

时间:2015-08-05 00:29:47

标签: web-crawler nutch

我使用以下命令获取数据,并希望检查已抓取的网址。但我在输出中得到空文件。请告诉我有什么问题。

Pattern p = Pattern.compile("(http|ftp|https):\/\/([\w\-_]+(?:(?:\.[\w\-_]+)+))([\w\-\.,@?^=%&:/~\+#]*[\w\-\@?^=%&/~\+#])?");

for(String x : myArray){
    Matcher m = p.matcher(x);
    int count = m.groupCount();  
    while(count > 0){ 
         System.out.println(m.group(count--));
    }

}

我正在使用带有Cassandra v2.2的nutch v2.3。

0 个答案:

没有答案