Question

这是我的代码。由于要解析的原始数据的内容，我最终得到了用户列表＆＃39;以及＆＃39;推文列表＆＃39;长度不同。将列表作为列写入数据框时，我得到ValueError: arrays must all be same length。我意识到这一点，但一直在寻找一种解决方法，在较短的数组的正确位置打印0或NaN。有任何想法吗？

import pandas
from bs4 import BeautifulSoup
soup = BeautifulSoup(open('#raw.html'))
chunk = soup.find_all('div', class_='content')

userlist = []
tweetlist = []

for tweet in chunk:
    username = tweet.find_all(class_='username js-action-profile-name')
    for user in username:
        user2 = user.get_text()
        userlist.append(user2)

for text in chunk:
    tweets = text.find_all(class_='js-tweet-text tweet-text')
for tweet in tweets:
    tweet2 = tweet.get_text().encode('utf-8')
    tweetlist.append('|'+tweet2)

print len(tweetlist)
print len(userlist)

#MAKE A DATAFRAME WITH THIS
data = {'tweet' : tweetlist, 'user' : userlist}
frame = pandas.DataFrame(data)
print frame

# Export dataframe to csv
frame.to_csv('#parsed.csv', index=False)

Answer 1

我不确定这是你想要的，但无论如何：

d = dict(tweets=tweetlist, users=userlist)
pandas.DataFrame({k : pandas.Series(v) for k, v in d.iteritems()})

Answer 2

试试这个：

frame = pandas.DataFrame.from_dict(d, orient='index')

之后，您应该使用以下内容转置框架：

frame = frame.transpose()

然后你可以导出到csv：

frame.to_csv('#parsed.csv', index=False)

熊猫与不同长度的阵列

2 个答案: