Question

我刚刚开始使用快速挖掘器进行文本分类。我创建了一个过程，其中我使用“文件处理文档”操作符进行tf-idf转换。我想问一下如何在Java代码中使用这个运算符？我在互联网上搜索但是所有人都在使用已经创建的过程或从文档生成的单词列表？我想从头开始，即

1）从文件处理文件

1.1）标记化

1.2）过滤

1.3）词干

1.4）N-Gram

2）验证

2.1）培训（K-NN）

2.2）应用模型

Answer 1

可能是源代码，下面的图片可以帮助您：

String              processDefinitionFileName   = "/home/maximk/.RapidMiner5/repositories/Local Repository/processes/processOpenCSV.rmp";
File                processDefinition           = new File( processDefinitionFileName );
Process             readCSV                     = new Process( processDefinition );
File                csvFile                     = new File( "/home/maximk/test.cvs" );
IOObject            inObject                    = new SimpleFileObject( csvFile );
IOContainer         inParameters                = new IOContainer( inObject );
IOContainer         outParameters               = readCSV.run( inParameters );
SimpleExampleSet    resultDataSet               = (SimpleExampleSet) outParameters.getElementAt( 0 );

enter image description here

如何在Java代码中使用RapidMiner的“Process Document From File”操作符

1 个答案: