Question

我写了一个程序来存储MySQL中的nutch（2.1）爬行结果。它工作正常。我得到为搜索指定的文件格式。我收到的文件很少jpeg。我想从DB中获取这些图像（我不确定它们是否存储）。我有一个带图像URL的字段。我可以去那里取。但那么nutch在MySQL中存储如此多的数据有什么用呢。你能帮帮我吗？
我使用以下代码：

    String crawlArg = "urls  -threads 5";

    // Run Crawl tool

     try {
             ToolRunner.run(NutchConfiguration.create(), new org.apache.nutch.crawl.Crawler(),
                             tokenize(crawlArg));
     } catch (Exception e) {
             e.printStackTrace();
             return;
     }

请询问您可能需要的更多详细信息。我是nutch的新手。

Answer 1

我错过了MySQL中LongBlob的内容字段并存储了图片。

从MySQL读取Nutch抓取的数据

1 个答案: