标签: r twitter text-mining corpus social-media
我正在挖掘Twitter数据,而我在清理文本时遇到的一个问题是,无法删除/分离通常是主题标签数据的联合词。删除特殊字符和符号'#'后,我留下了毫无意义的短语。例如:
2)联合词:我需要一种方法将联合词分开:'flashfloodwarn': 来自我的语料库的“闪光”,“泛滥”,“警告”。
任何帮助都将不胜感激。