Python:计算字符串中的单词,不带空格

时间:2019-07-14 18:38:04

标签: python

我在HiveQL数据库中有十亿个字符串。我正在将它们加载到Python中。字符串不是用空格分隔的,看起来像:

 from flask_restfull import Resource
 from app import mysql 

class Query(Resource):
    def get(self):
    pass

我想计算每个字符串中的单词数。但是首先,我需要一本字典。我不知道如何获得单词词典,但是假设我有以下词典:

"mynameisanon"
...
"helloworld"

然后该函数将像:

{ hello, world, my, name, is}

最后,我想要一个如下的Pandas表:

Input:  mynameisanon
Output: 3

Input:  helloworld
Output: 2

如上表所示,我还希望对标点符号,数字字符进行计数,并计算它们的比例,其中分母是字符串中字符的总数。

我正在寻找完整的代码解决方案和/或对相关软件包和文档的提示。最后,我希望使用上面生成的功能构建机器学习模型。

0 个答案:

没有答案