使用R + tm(文本挖掘)库,我想将单词混合在一起而不是n-gram

时间:2016-05-20 20:10:17

标签: r text-mining gsub tm

我正在使用R和文本挖掘库tm

我正在查看从生物技术(即生物信息学工作)网站收集的职位发布,复制并粘贴到.txt文件中。我能够做一个快速而肮脏的直方图和文字云,但文本挖掘仍然没有给我任何新的东西。

“云”一词显示了通常的单词响应,例如“分子”,“生物学”等。我还做了一个快速而又脏的工作发布。例如,它给许多[“in”+“vivo”]或[“in”+“silico”]。这对我来说没用。

  1. 我想知道在所有职位发布中有多少次BS / MS / PhD(例如)。
  2. 我想把一些单词转换成混搭。没有通过三克。
  3. 例如: 下一代测序 - > NGS

    我试过了:

    toMash <- content_transformer(function(x, pattern) {
                                  return (gsub(pattern, nextGenerationSequencing, x))})
    
    docs <- tm_map(docs, toMash, "next generation sequencing")
    

0 个答案:

没有答案