carrot2 - 我可以从文件夹中聚类文档吗?

时间:2013-08-14 11:42:37

标签: carrot2

我正在尝试将我收集的文档作为研究项目的一部分进行聚类。我正在尝试使用Carrot2工作台,但无法找到如何在包含文档的文件夹中指向胡萝卜。我该怎么办? (我有一些文件(.txt)需要比较,而且它们是独立的研究机器,所以我无法连接到网络并在那里处理它们。

感激不尽的任何帮助!

(我试图识别文档中的相似性/主题/组;如果Carrot2不是正确的工具,那么会对其他建议感激不尽!)

非常感谢,

约翰

2 个答案:

答案 0 :(得分:4)

目前,Carrot2 Workbench不支持直接从本地文件夹群集文件。这里有一些解决方案:

  1. 将所有文本文件转换为Carrot2 XML format并在Carrot2 Workbench中对XML文件进行聚类。

  2. 在Apache Solr中索引文件并从Carrot2 Workbench查询Solr索引。

  3. 将文件转换为Lucene索引并从Carrot2 Workbench查询索引。我为该任务编写了一个名为folder2indexsource code)的简单实用程序。

    假设您使用的是Windows,则索引过程如下:

    1. 在某个地方拉开folder2index工具,我们假设您将其解压缩到c:\carrot2\folder2index-0.0.1

    2. 要从某个目录索引文本文件(让我们假设为c:\txt-input)并在c:\txt-input-index中创建索引,请执行以下操作:

      一个。打开命令行控制台(开始菜单 - >运行程序 - >键入cmd,然后按Enter键。)

      湾在控制台中,键入:

      cd c:\carrot2\folder2index-0.0.2
      java -jar folder2index-0.0.2.jar --index c:\txt-input-index --folders c:\txt-input --use-tika
      

      过了一会儿,你应该看到类似的东西:

      ...
      Index created: c:\txt-input-index
      
    3. 对文件编制索引后,可以使用Lucene document source将它们集中到Carrot2 Workbench中。使用content文件名来引用文本文件的内容;该文件的名称存储在fileName字段中。

    4. 几点说明:

      • 目前只有PDF,HTML和TXT文件被编入索引,其他文件将被忽略。

      • 如果索引已存在,则会将文件添加到索引中。这意味着如果使用相同的参数运行命令两次,索引将包含重复的文档。要重新索引刚刚添加了一些文件的文件夹,最好先删除索引目录。

      • 您可以使用Carrot2 Workbench中的Query字段从索引中选择特定文件,例如:

        *:* - 检索所有内容(最多为请求的结果数)

        mining - 检索包含“挖掘”一词的所有文件(同样,直到请求的结果数量)

        "data mining" - 检索包含完整短语“数据挖掘”的文档

        fileName:92* - 检索名称以“92”

      • 开头的文件的内容

答案 1 :(得分:0)

我最近建立了一个文档集群软件。这个软件是用java构建的。这个软件是完全免费的。文档管理器软件可以聚集大量以下扩展文档:

  • TXT
  • PDF
  • 文档
  • 的docx
  • XLS
  • XLSX
  • PPT
  • PPTX

如果此软件未满足您的要求,请告知我们。

这是链接: http://www.computergodzilla.com

如果您想了解更多信息,请参阅此处: http://computergodzilla.blogspot.com/2013/07/document-organizer-software.html