使用R从文本中提取位置列表

时间:2015-10-19 12:53:42

标签: r machine-learning

我有一个包含很多单词的字符串[不是句子],我想知道如何提取与该字符串中某个位置对应的所有单词,例如:

text<-c("China","Japan","perspective","United Kingdom","formatting","clear","India","Sudan","United States of America","Bagel","Mongolian",...)

输出应为:

 > China, Japan, United Kingdom, Mongolian

某种类型。基本上我正在寻找从随机文本中提取定位信息。 这是一个非常普遍的问题我正在寻找关于如何建模我的解决方案的指导,是否有任何数据集或我可以用来比较或提取信息的东西。我不想逐字逐句地进行比较 我是机器学习和R编程的新手,非常感谢任何指导。

1 个答案:

答案 0 :(得分:2)

你可以试试这个 - 它的效果如何真正取决于输入变量的清洁程度,但它适用于你的示例数据:

library(countrycode)
text[!is.na(countrycode(text, "country.name", "continent"))]

[1] "China"                    "Japan"                    "United Kingdom"          
[4] "India"                    "Sudan"                    "United States of America"
[7] "Mongolian"