Tidytext R ngrams n = 2奇怪的行为

时间:2019-03-04 14:28:50

标签: r tidytext

我正在与ICD(国际疾病分类)和ICPM(国际医学程序分类)合作 我有一个带有1 * ICD的数据帧,每行有几个ICPM。我将它们用" "隔开。然后,我用n=2构建ngram。尽管植检临委始终处于开头,例如:

M6744 58490 50413

我会得到

50413 M6744

令牌生成器是否在两个方向上起作用?它并不总是发生,但是它非常频繁,我无法想象它何时,为什么发生。 我用

> unnest_tokens(word,text,token="ngrams",n=2, to_lower=FALSE)

当我根据ICD的顺序和ICPM的相关路径构建网络时,这是不正确的,因为ICPM和ICD之间存在反馈回路。

我可以在构建网络之前使用过滤器解决问题,但我希望有一个更简单的解决方案。

感谢彼得

0 个答案:

没有答案