Python中单词令牌的高效存储/查询

时间:2018-09-06 18:10:38

标签: python pandas

我正在使用一个仪表板,该仪表板包含一个单词云,用于在一段时间内使用社交媒体术语。

我目前正在将令牌作为列表存储在熊猫的数据框中,这看起来像这样:

Tokens-Columns:
['this', 'is', 'a', 'sentence']
['another', 'sentence']
['last', 'sentence']

目前,我的代码会遍历每个列表以构建一个平面列表,然后用一个集合进行计数。但是,这确实效率不高,并且在达到数百万条记录时需要花很多时间。

是否有更有效的方法?

谢谢!

0 个答案:

没有答案