标签: java weka arabic preprocessor
我尝试使用WEKA的Java预处理阿拉伯语推文。我想删除所有英文字母,表情符号和非字符,并使用StringToWordVector仅保留阿拉伯字母。虽然我知道它可以通过java正则表达式来完成,但是我仍然坚持使用StringToWordVector来将预处理应用于训练数据集,这些数据集来自类型"实例"。
PLZ,求助!