感谢您的帮助。我有一个大数据集,我试图查询2-3列单词短语的长列。
我使用以下代码尝试挑选重复单词的频率。以下示例数据。
我的问题是代码没有解决 - 我认为这是因为数据中有一些特殊字符。
一些日语,一些右撇子标志,网址和希腊符号。
1)有没有办法轻松删除带有特殊字符的行?
2)我做错了什么?
3)我如何使用与此处相同的频率公式 - 但是有两个单词短语和三个单词阶段?
=ArrayFormula(QUERY(TRANSPOSE(SPLIT(JOIN(" ";B3:B);" ")& .
{"";""});"select Col1, count(Col2) group by Col1 order by count(Col2)
desc limit 10 label Col1 'Word', count(Col2) 'Frequency'";0))
我从这里收到了代码,顺便说一句。 Google Docs spreadsheet formula for most frequent keywords
答案 0 :(得分:0)
除了额外的"。"该公式似乎指的是错误的列。试试这个:
=ArrayFormula(QUERY(TRANSPOSE(SPLIT(JOIN(" ",A:A)," ")&{"";""}),"select Col1, count(Col2) group by Col1 order by count(Col2) desc label Col1 'Word', count(Col2) 'Frequency'",0))
这也是所有人,而不仅仅是前10名。
我不认为这种方法适用于两个单词短语。