我正在使用一个仪表板,该仪表板包含一个单词云,用于在一段时间内使用社交媒体术语。
我目前正在将令牌作为列表存储在熊猫的数据框中,这看起来像这样:
Tokens-Columns:
['this', 'is', 'a', 'sentence']
['another', 'sentence']
['last', 'sentence']
目前,我的代码会遍历每个列表以构建一个平面列表,然后用一个集合进行计数。但是,这确实效率不高,并且在达到数百万条记录时需要花很多时间。
是否有更有效的方法?
谢谢!