我正在与ICD(国际疾病分类)和ICPM(国际医学程序分类)合作
我有一个带有1 * ICD的数据帧,每行有几个ICPM。我将它们用" "
隔开。然后,我用n=2
构建ngram。尽管植检临委始终处于开头,例如:
M6744 58490 50413
我会得到
50413 M6744
令牌生成器是否在两个方向上起作用?它并不总是发生,但是它非常频繁,我无法想象它何时,为什么发生。 我用
> unnest_tokens(word,text,token="ngrams",n=2, to_lower=FALSE)
当我根据ICD的顺序和ICPM的相关路径构建网络时,这是不正确的,因为ICPM和ICD之间存在反馈回路。
我可以在构建网络之前使用过滤器解决问题,但我希望有一个更简单的解决方案。
感谢彼得