如何从函数结果中删除“无”?

时间:2018-09-17 10:21:49

标签: python nonetype topic-modeling nmf

很抱歉,但是我仍然无法解决此None问题。我使用NMF算法获取语料库的主题,然后尝试检索附加到每个主题的文档。但是没有人能阻止我!尝试检索文档时,出现错误

脚本:

import pandas
import numpy as np
import pandas as pd
from sklearn.decomposition import NMF
from sklearn.feature_extraction.text import TfidfVectorizer

def display_topics(model, feature_names, n_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print "Topic %d:" % (topic_idx)
        print " ".join([feature_names[i] for i in topic.argsort()[:-n_top_words - 1:-1]])  

text = pandas.read_csv('pretraitement_virgile.csv', encoding = 'utf-8')
good_text = text['phrase']
bad_text = text['raw_phrase']
bad_text_list = bad_text.values.tolist()
good_text_list = good_text.values.tolist()

tfidf_vectorizer = TfidfVectorizer()
tfidf = tfidf_vectorizer.fit_transform(good_text_list)
tfidf_feature_names = tfidf_vectorizer.get_feature_names()

topics_number = 3

# Run NMF
nmf = NMF(n_components=topics_number, random_state=1, alpha=.1, l1_ratio=.5, init='nndsvd').fit(tfidf)
document_topics = nmf.fit_transform(tfidf)

n_top_words = 10
print 'NMF topics'
topics = display_topics(nmf, tfidf_feature_names, n_top_words)
print topics

print 

print 'Documents per topic'
for topic in range(len(topics)): 
    if topic == None:
        pass
    else:
        print("Topic {}:".format(topic))
        docs = np.argsort(document_topics[:, topic])[::-1]
        for mail in docs[:3]:
            bad_text_list_n = " ".join(bad_text_list[mail].split(",")[:2])
            print (" ".join(good_text_list[mail].split(",")[:2]) + ',' + bad_text_list_n)

我试图设置一个条件来忽略名称,但是它不起作用。我仍然遇到相同的错误。

  

主题0:

     

订单取消交货日期不希望总是提前存储

     

主题1:

     

产品没有损坏,只有包装到达了,颜色已经送出

     

主题2:

     

产品不可退回现场商店收货单

     

没有

     

文档主题

     

回溯(最近通话最近):     在第49行的文件“ NMF.py”中       范围内的主题(len(topics)):

     

TypeError:类型为'NoneType'的对象没有len()

我需要这个结果:

  

主题0:

     

订单取消交货日期不希望总是提前存储

     

主题1:

     

产品没有损坏,只有包装到达了,颜色已经送出

     

主题2:

     

产品不可退回现场商店收货单

     

文档主题

     

主题0:

     

文字文字文字

     

文字文字文字

     

文字文字文字

     

主题1:

     

文字文字文字

     

文字文字文字

     

文字文字文字

     

主题2:

     

文字文字文字

     

文字文字文字

     

文字文字文字

一些(愚蠢的)数据示例:

phrase,raw_phrase
delicious fruit mango, the mango is a delicious fruit
important object computer, the computer is an important object
popular banana fruit, banana is a popular fruit
pen important thing, pen is an important thing
purple grape, the grape is purple
phone world object, the phone is a worldwide object

2 个答案:

答案 0 :(得分:4)

您的过程display_topics不返回任何内容,但是您将其结果分配给变量topics,然后将其设置为Null。而且您不能遍历Null对象。

答案 1 :(得分:1)

如错误消息所指出,您的错误发生在此行:

for topic in range(len(topics)): 

因为python尝试获取对象topics的长度,而对象是None类型,所以它没有长度。

如果您想在topicsNull时跳过整个循环,可以使用:

for topic in topics: 

并将所有topics[topic]更改为topic

或者,如果您想捕获该错误,可以写:

try:
    l = len(topics)
except TypeError:
    # do somthing about it like:
    l = 0

for topic in range(l):
   # go on in topic loop

或者,您可以使用以下方法在创建topics对象之后检查None:

if variable is None:
    topics = #something else or empty with ""