从MySQL读取Nutch抓取的数据

时间:2013-02-20 16:44:50

标签: java mysql nutch

我写了一个程序来存储MySQL中的nutch(2.1)爬行结果。它工作正常。我得到为搜索指定的文件格式。我收到的文件很少jpeg。我想从DB中获取这些图像(我不确定它们是否存储)。我有一个带图像URL的字段。我可以去那里取。但那么nutch在MySQL中存储如此多的数据有什么用呢。你能帮帮我吗?
我使用以下代码:

    String crawlArg = "urls  -threads 5";

    // Run Crawl tool

     try {
             ToolRunner.run(NutchConfiguration.create(), new org.apache.nutch.crawl.Crawler(),
                             tokenize(crawlArg));
     } catch (Exception e) {
             e.printStackTrace();
             return;
     }

请询问您可能需要的更多详细信息。我是nutch的新手。

1 个答案:

答案 0 :(得分:0)

我错过了MySQLLongBlob的内容字段并存储了图片。