我正在尝试将我收集的文档作为研究项目的一部分进行聚类。我正在尝试使用Carrot2工作台,但无法找到如何在包含文档的文件夹中指向胡萝卜。我该怎么办? (我有一些文件(.txt)需要比较,而且它们是独立的研究机器,所以我无法连接到网络并在那里处理它们。
感激不尽的任何帮助!
(我试图识别文档中的相似性/主题/组;如果Carrot2不是正确的工具,那么会对其他建议感激不尽!)
非常感谢,
约翰
答案 0 :(得分:4)
目前,Carrot2 Workbench不支持直接从本地文件夹群集文件。这里有一些解决方案:
将所有文本文件转换为Carrot2 XML format并在Carrot2 Workbench中对XML文件进行聚类。
在Apache Solr中索引文件并从Carrot2 Workbench查询Solr索引。
将文件转换为Lucene索引并从Carrot2 Workbench查询索引。我为该任务编写了一个名为folder2index(source code)的简单实用程序。
假设您使用的是Windows,则索引过程如下:
在某个地方拉开folder2index
工具,我们假设您将其解压缩到c:\carrot2\folder2index-0.0.1
。
要从某个目录索引文本文件(让我们假设为c:\txt-input
)并在c:\txt-input-index
中创建索引,请执行以下操作:
一个。打开命令行控制台(开始菜单 - >运行程序 - >键入cmd
,然后按Enter键。)
湾在控制台中,键入:
cd c:\carrot2\folder2index-0.0.2
java -jar folder2index-0.0.2.jar --index c:\txt-input-index --folders c:\txt-input --use-tika
过了一会儿,你应该看到类似的东西:
...
Index created: c:\txt-input-index
对文件编制索引后,可以使用Lucene document source将它们集中到Carrot2 Workbench中。使用content
文件名来引用文本文件的内容;该文件的名称存储在fileName
字段中。
几点说明:
目前只有PDF,HTML和TXT文件被编入索引,其他文件将被忽略。
如果索引已存在,则会将文件添加到索引中。这意味着如果使用相同的参数运行命令两次,索引将包含重复的文档。要重新索引刚刚添加了一些文件的文件夹,最好先删除索引目录。
您可以使用Carrot2 Workbench中的Query字段从索引中选择特定文件,例如:
*:*
- 检索所有内容(最多为请求的结果数)
mining
- 检索包含“挖掘”一词的所有文件(同样,直到请求的结果数量)
"data mining"
- 检索包含完整短语“数据挖掘”的文档
fileName:92*
- 检索名称以“92”
答案 1 :(得分:0)
我最近建立了一个文档集群软件。这个软件是用java构建的。这个软件是完全免费的。文档管理器软件可以聚集大量以下扩展文档:
如果此软件未满足您的要求,请告知我们。
这是链接: http://www.computergodzilla.com
如果您想了解更多信息,请参阅此处: http://computergodzilla.blogspot.com/2013/07/document-organizer-software.html