我有一个数据集,其中包含Reddit的NameAccount以及它们随时间和subreddit编写的消息。像这样:
对于我的仓促,我需要一个带有[帐户名,他写的所有消息]的数组(因为正文(看图片)只有一条消息,但是如果我们看到所有作者都会重复) 。
所以我写了这个程序:
test_data = pd.read_csv("addres/test_data.csv", encoding="utf8")
test = test_data[['author', 'body']]
lista = [list(x) for x in test.values]
test=dict()
for i in range(1107946):
if lista[i][0] in test:
test[lista[i][0]].append(lista[i][1])
else:
test[lista[i][0]]=[lista[i][1]]
我得到了我喜欢的东西。 如果我写test [“ Name”],我将获得该人的所有消息。 例如:
test["ZenDragon"]
['At 7680 by 4320 with 64x AA, right?', 'Wrong subreddit for this kind of post, but /r/frugal and /r/lifeprotips might be interested.', 'This is something GravityBox can do. (a module for XPosed Framework)',etc]
现在我想加入所有这些行。 例如:[“ message1”,“ message2”,“ message3”等。]-> [“ message 1 message 2 etc ...”] 我试图写这个东西:
for i in test.keys():
X.append(" ".join(line.strip() for line in test[i]))
但是我有这个错误: 'float'对象没有属性'strip'
但是我没有浮动对象?
答案 0 :(得分:1)
好吧,显然您的i
字典中有一个键test
,它的关联值是元素列表,其中至少一个不是字符串,而是浮点数。
您可以将代码包装在try-catch中,以帮助缩小问题原因:
for i in test.keys():
try:
for line in test[i]:
line.strip()
except:
print(i)
print(line)