我有一个名为Q1Dummy
的数据框,该数据框由两列组成:resp_id
(响应者ID)和Q1
(响应它们以字符串格式生成)。
它看起来像这样:
resp_id Q1
1 Ik vind het niet helemaal netjes om je sociale huurwoning te verhuren, aangezien je dan mensen passeert die al lang op de wachtrij staan of er meer recht op hebben.
2 Ja dat vind ik heel goed omdat mensen die al heel lang op zoek zijn ook een huisje kunnen krijgen.
3 Ik vind het iets begrijpelijks. Als je in de sociale huur zit, geeft het al aan dat je een klein inkomen hebt. Het is fijn om de woning dan achter de hand te hebben als extra inkomen en uitvalsbasis in een stad als Amsterdam. Ook de huur illegaal met iemand delen, waardoor je beide geld bespaard, is een logisch gevolg van de krapte op de huizenmarkt. Ondanks dat het iets illegaals is kan ik er dus begrip voor opbrengen.
... ...
n Dat kan echt niet. Je maakt winst op een woning waar subsidie opzit. Daar is de woning niet voor bedoeld.
现在,出于文本挖掘的目的,我希望以ngram(共3个)的形式嵌套响应,如下所示:
tokensQ1Dummy <- Q1Dummy %>%
unnest_tokens(words, Q1, token = "ngrams", n = 3, n_min = 1) %>%
count(words, sort = TRUE)
下一步是计算tf-idf。为此,有几个功能,但是问题在于,在响应者ID上方创建tokensQ1Dummy
数据帧时会丢失。所以我的问题是从现在开始如何为创建的令牌计算tf-idf。
谢谢!