我制作了一个文本文件,其中包含单词及其出现在推文中。 文本文件看起来像
W1 W2 W2 ..
1 0 0 ..
其中W1 =单词1 我想在Wn之后添加另一列,即提取推文的时间。我有时间在另一个文本文件中。
我的代码:
df = pd.read_csv('Twidb11.csv',error_bad_lines=False, sep='delimiter', engine='python')
# Creating Bag of Words
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(df.Text)
freq_matrix = count_vect.fit_transform(df.Text).todense()
#print type(freq_matrix)
#X_train_counts.shape
words = count_vect.vocabulary_
sorted_words = sorted(words.items(), key=operator.itemgetter(1))
print sorted_words
for key, value in sorted_words:
saveFile8 = open('Twidb14.txt', 'a')#bag of words their occurences
saveThis8 = key
saveFile8.write(saveThis8)
saveFile8.write(' ')
saveFile8.close()
print key
saveFile8 = open('Twidb14.txt', 'a')
saveFile8.write('\n')
freq_matrix.tofile(saveFile8, sep=" ", format="%s")
saveFile8.close()
我想要包括时间列和时间。