如何使用Rapid Miner处理波斯文本?

时间:2018-05-16 11:13:32

标签: classification text-processing text-classification rapidminer

我正在研究一个波斯分类项目。波斯文本与阿拉伯文本非常相似。当我使用Tokenize时,它没有在wordlist页面和Example Set Page中显示任何单词,下面的图片将会显示:

我需要将波斯文本分类到某个类别,但我不知道如何?。

我遵循以下一些步骤:

1-读取Excel(使用Read Excel组件)数据集,其中包含2列=> col1:persian Text,col2:Category

2-我使用Set role组件来标记数据

3-我使用来自数据组件​​的处理文档,其中包含:(Tokenize(任何模式不改变任何模式)和Filter Token(min:5,max:25))

4-然后我使用交叉验证组件来训练SVM或Basian并在测试模式下获得性能。

该程序运行正常,性能也不错,例如准确率为50%,但我认为我的工作是错误的。

任何帮助都将不胜感激。

1 个答案:

答案 0 :(得分:0)

首先,确保您的文字数据具有 UTF-8编码 如果您使用过滤器令牌(按长度计算)5 太多至少尝试 2 或至少3 另外,我建议使用过滤器停用词(词典)运算符,字典应该在每一行都有波斯语停用词 希望它会帮助你