我正在尝试在推文上进行文本预处理。我感兴趣的是将来自推文文本的标记与查找表的标记相匹配。例如,我有一个情感词的表/词典,我想检查一条推文是否包含其中一个词。
此刻我的文本预处理如下:
String.split(" ")
)对文本进行标记,并删除所有数字和奇怪的字符标记。我也删除所有提及和停用词。然后将标记存储在String数组中。这种方法会导致一些问题,这就是解释:
我想知道是否有办法匹配不需要复制东西的东西。也许使用正则表达式?
答案 0 :(得分:-1)
为什么不反过来检查呢。如果它包含来自你的lut的字符串,则测试推文字符串。
tweetstring.contains(LUT [I])
或更好
tweetstring.toLowerCase()。包含(LUT [I] .toLowerCase())