应用错误收集

carrot2 - 我可以从文件夹中聚类文档吗？

时间：2013-08-14 11:42:37

标签： carrot2

我正在尝试将我收集的文档作为研究项目的一部分进行聚类。我正在尝试使用Carrot2工作台，但无法找到如何在包含文档的文件夹中指向胡萝卜。我该怎么办？（我有一些文件（.txt）需要比较，而且它们是独立的研究机器，所以我无法连接到网络并在那里处理它们。

感激不尽的任何帮助！

（我试图识别文档中的相似性/主题/组;如果Carrot2不是正确的工具，那么会对其他建议感激不尽！）

非常感谢，

约翰

2 个答案:

答案 0 :(得分：4)

目前，Carrot2 Workbench不支持直接从本地文件夹群集文件。这里有一些解决方案：

将所有文本文件转换为Carrot2 XML format并在Carrot2 Workbench中对XML文件进行聚类。
在Apache Solr中索引文件并从Carrot2 Workbench查询Solr索引。
将文件转换为Lucene索引并从Carrot2 Workbench查询索引。我为该任务编写了一个名为folder2index（source code）的简单实用程序。

假设您使用的是Windows，则索引过程如下：
1. 在某个地方拉开folder2index工具，我们假设您将其解压缩到c:\carrot2\folder2index-0.0.1。
2. 要从某个目录索引文本文件（让我们假设为c:\txt-input）并在c:\txt-input-index中创建索引，请执行以下操作：
  
  一个。打开命令行控制台（开始菜单 - ＆gt;运行程序 - ＆gt;键入cmd，然后按Enter键。）
  
  湾在控制台中，键入：
```
cd c:\carrot2\folder2index-0.0.2
java -jar folder2index-0.0.2.jar --index c:\txt-input-index --folders c:\txt-input --use-tika
```
  过了一会儿，你应该看到类似的东西：
```
...
Index created: c:\txt-input-index
```
3. 对文件编制索引后，可以使用Lucene document source将它们集中到Carrot2 Workbench中。使用content文件名来引用文本文件的内容;该文件的名称存储在fileName字段中。

答案 1 :(得分：0)

我最近建立了一个文档集群软件。这个软件是用java构建的。这个软件是完全免费的。文档管理器软件可以聚集大量以下扩展文档：

TXT
PDF
文档
的docx
XLS
XLSX
PPT
PPTX

如果此软件未满足您的要求，请告知我们。

这是链接： http://www.computergodzilla.com

如果您想了解更多信息，请参阅此处： http://computergodzilla.blogspot.com/2013/07/document-organizer-software.html