我在HiveQL数据库中有十亿个字符串。我正在将它们加载到Python中。字符串不是用空格分隔的,看起来像:
from flask_restfull import Resource
from app import mysql
class Query(Resource):
def get(self):
pass
我想计算每个字符串中的单词数。但是首先,我需要一本字典。我不知道如何获得单词词典,但是假设我有以下词典:
"mynameisanon"
...
"helloworld"
然后该函数将像:
{ hello, world, my, name, is}
最后,我想要一个如下的Pandas表:
Input: mynameisanon
Output: 3
Input: helloworld
Output: 2
如上表所示,我还希望对标点符号,数字字符进行计数,并计算它们的比例,其中分母是字符串中字符的总数。
我正在寻找完整的代码解决方案和/或对相关软件包和文档的提示。最后,我希望使用上面生成的功能构建机器学习模型。