Question

使用R编程我正在处理文本文件，其中包含来自作业广告的单词（c＃，c ++ ,. net），当我将其转换为标记时，＃，++和点将被删除。我如何将它们保存在生成的标记中？

unnest_tokens(word,REQUIREMENTS, token = "words",to_lower=TRUE)

Answer 1

问题是参数token = "words"，它分裂在非单词字符上（大概使用正则表达式\\W+）。此函数会抛弃分隔符，因此为了保留这些字符，您必须使用除"words"之外的其他参数。您可能希望使用token = "regex"定义自己的拆分正则表达式，如下所示：

unnest_tokens(word,
              REQUIREMENTS,
              token = "regex",
              to_lower = TRUE,
              pattern = "\\s+") # split on whitespace rather than non-word elements

这样，you can define whatever regex you need可以自定义文本的标记方式。

如何在编程中保留（，＃符号）标记

1 个答案: