我正在尝试在我的阿拉伯文字上使用StringToWordVector
过滤器,我想删除英文字母和数字以及表情符号“我的数据是推文”,我只想保留阿拉伯语单词。
有谁知道如何使用StringToWordVector
过滤器执行此操作?
顺便说一下,我正在使用带有Weka库的java。
答案 0 :(得分:0)
您正在使用Java,因此请使用简单的字符串操作来保持简单。
删除拉丁字母和数字(英语使用):
String cleaned = input.replaceAll("[a-zA-Z0-9]", "");
"表情符号的定义"是松散的,但要删除它们,请尝试:
String cleaned = input.replaceAll("[a-zA-Z0-9]|[:;]-?[()ODp]", "");