如何在编程中保留(,#符号)标记

时间:2017-09-29 06:35:51

标签: r data-mining tokenize

使用R编程 我正在处理文本文件,其中包含来自作业广告的单词(c#,c ++ ,. net),当我将其转换为标记时,#,++和点将被删除。 我如何将它们保存在生成​​的标记中?

unnest_tokens(word,REQUIREMENTS, token = "words",to_lower=TRUE)

1 个答案:

答案 0 :(得分:1)

问题是参数token = "words",它分裂在非单词字符上(大概使用正则表达式\\W+)。此函数会抛弃分隔符,因此为了保留这些字符,您必须使用除"words"之外的其他参数。您可能希望使用token = "regex"定义自己的拆分正则表达式,如下所示:

unnest_tokens(word,
              REQUIREMENTS,
              token = "regex",
              to_lower = TRUE,
              pattern = "\\s+") # split on whitespace rather than non-word elements

这样,you can define whatever regex you need可以自定义文本的标记方式。