应用错误收集

我正在使用R和文本挖掘库tm。

我正在查看从生物技术（即生物信息学工作）网站收集的职位发布，复制并粘贴到.txt文件中。我能够做一个快速而肮脏的直方图和文字云，但文本挖掘仍然没有给我任何新的东西。

“云”一词显示了通常的单词响应，例如“分子”，“生物学”等。我还做了一个快速而又脏的工作发布。例如，它给许多[“in”+“vivo”]或[“in”+“silico”]。这对我来说没用。

我想知道在所有职位发布中有多少次BS / MS / PhD（例如）。
我想把一些单词转换成混搭。没有通过三克。

例如：下一代测序 - ＆gt; NGS

我试过了：

toMash <- content_transformer(function(x, pattern) {
                              return (gsub(pattern, nextGenerationSequencing, x))})

docs <- tm_map(docs, toMash, "next generation sequencing")

使用R + tm（文本挖掘）库，我想将单词混合在一起而不是n-gram

0 个答案: