使用R编程 我正在处理文本文件,其中包含来自作业广告的单词(c#,c ++ ,. net),当我将其转换为标记时,#,++和点将被删除。 我如何将它们保存在生成的标记中?
unnest_tokens(word,REQUIREMENTS, token = "words",to_lower=TRUE)
答案 0 :(得分:1)
问题是参数token = "words"
,它分裂在非单词字符上(大概使用正则表达式\\W+
)。此函数会抛弃分隔符,因此为了保留这些字符,您必须使用除"words"
之外的其他参数。您可能希望使用token = "regex"
定义自己的拆分正则表达式,如下所示:
unnest_tokens(word,
REQUIREMENTS,
token = "regex",
to_lower = TRUE,
pattern = "\\s+") # split on whitespace rather than non-word elements
这样,you can define whatever regex you need可以自定义文本的标记方式。