我正在研究一个波斯分类项目。波斯文本与阿拉伯文本非常相似。当我使用Tokenize时,它没有在wordlist页面和Example Set Page中显示任何单词,下面的图片将会显示:
我遵循以下一些步骤:
1-读取Excel(使用Read Excel组件)数据集,其中包含2列=> col1:persian Text,col2:Category
2-我使用Set role组件来标记数据
3-我使用来自数据组件的处理文档,其中包含:(Tokenize(任何模式不改变任何模式)和Filter Token(min:5,max:25))
4-然后我使用交叉验证组件来训练SVM或Basian并在测试模式下获得性能。
该程序运行正常,性能也不错,例如准确率为50%,但我认为我的工作是错误的。
任何帮助都将不胜感激。
答案 0 :(得分:0)
首先,确保您的文字数据具有 UTF-8编码 如果您使用过滤器令牌(按长度计算)5 太多至少尝试 2 或至少3 另外,我建议使用过滤器停用词(词典)运算符,字典应该在每一行都有波斯语停用词 希望它会帮助你