我正在使用R和文本挖掘库tm
。
我正在查看从生物技术(即生物信息学工作)网站收集的职位发布,复制并粘贴到.txt文件中。我能够做一个快速而肮脏的直方图和文字云,但文本挖掘仍然没有给我任何新的东西。
“云”一词显示了通常的单词响应,例如“分子”,“生物学”等。我还做了一个快速而又脏的工作发布。例如,它给许多[“in”+“vivo”]或[“in”+“silico”]。这对我来说没用。
例如: 下一代测序 - > NGS
我试过了:
toMash <- content_transformer(function(x, pattern) {
return (gsub(pattern, nextGenerationSequencing, x))})
docs <- tm_map(docs, toMash, "next generation sequencing")