使用tm包

时间:2017-01-20 15:33:18

标签: r text-mining tm corpus

我的语料库中包含5k,50k,7.5k,75k,10K,100K等单词。 因此,当我使用tm包创建TDM时,分别提取诸如10k和100k之类的术语。但是,5k和7.5k不作为单独的术语提取。 现在,我明白了在标点符号修正之后" 7.5k"可能会落在" 75k"条款,但最新情况是" 5k" 。为什么不将其作为术语提取?

基本上,我想知道是否有办法使用FORCE tm包来查找特定单词并将其作为关键术语提取。

任何指针都会有所帮助!!

1 个答案:

答案 0 :(得分:0)

你在标点符号上打断了吗?也就是说,是'。'一个断字的角色?如果是这样的话,则分裂为7.5k'是(' 7',' 5k'),其中第二个匹配' 5k'。