如何从推文中删除/分离联合词

时间:2017-04-06 02:32:51

标签: r twitter text-mining corpus social-media

我正在挖掘Twitter数据,而我在清理文本时遇到的一个问题是,无法删除/分离通常是主题标签数据的联合词。删除特殊字符和符号'#'后,我留下了毫无意义的短语。例如:

1)毫无意义的词语:我有像'spillwayjfleck','bowhunterva'等词,这些词没有意义,需要从我的语料库中删除。 R中有任何功能吗?

2)联合词:我需要一种方法将联合词分开:'flashfloodwarn': 来自我的语料库的“闪光”,“泛滥”,“警告”。

任何帮助都将不胜感激。

0 个答案:

没有答案