我刚刚开始使用快速挖掘器进行文本分类。我创建了一个过程,其中我使用“文件处理文档”操作符进行tf-idf转换。我想问一下如何在Java代码中使用这个运算符?我在互联网上搜索但是所有人都在使用已经创建的过程或从文档生成的单词列表?我想从头开始,即
1)从文件处理文件
1.1)标记化
1.2)过滤
1.3)词干
1.4)N-Gram
2)验证
2.1)培训(K-NN)
2.2)应用模型
答案 0 :(得分:1)
可能是源代码,下面的图片可以帮助您:
String processDefinitionFileName = "/home/maximk/.RapidMiner5/repositories/Local Repository/processes/processOpenCSV.rmp";
File processDefinition = new File( processDefinitionFileName );
Process readCSV = new Process( processDefinition );
File csvFile = new File( "/home/maximk/test.cvs" );
IOObject inObject = new SimpleFileObject( csvFile );
IOContainer inParameters = new IOContainer( inObject );
IOContainer outParameters = readCSV.run( inParameters );
SimpleExampleSet resultDataSet = (SimpleExampleSet) outParameters.getElementAt( 0 );