应用错误收集

是否有任何文本预处理可以检测san andreas作为单个单词Api for python

时间：2017-11-20 17:27:23

标签： python nlp nltk

我正在使用twitter数据进行分析，但在分析之前，我想预处理数据。我试过nltk.word_tokenize（），但他们不删除标点符号，他们不理解san andreas和单个单词，但在推文中，有很多这样的单词。这是代码

def inital(): return 0 def get_vocab(lst): vocab_count=defaultdict(inital) i=0 for txt in lst: if type(txt)!=float: txt=txt.decode("utf8") for words in nltk.word_tokenize(txt): vocab_count[words]+=1 return vocab_count

0 个答案:

没有答案

是否有任何文字语音API？
匹配除单个单词之外的任何单词
是否有可用的流量API可以为我提供实时数据以及过去的数据（几个月）？
是否有任何对象不是浮点数但可以在MySQL中作为浮点数接受？
有什么方法可以让PyDrive记住用户的身份验证吗？
有没有办法在虚拟机中伪造SAN？
有没有我可以用于vue.js的文本编辑器？
是否有任何文本预处理可以检测san andreas作为单个单词Api for python
是否有用于印地语单词搜索的NLP代码？
是否有API可以返回一个单词常见的拼写错误？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？