我一直在尝试在Pandas中创建一个相似矩阵,在文档项计数矩阵上使用2264行和20475列进行矩阵乘法运算。
计算在IPython中完成,但检查显示结果全部以NaN形式返回。
我也试过在numpy中做同样的工作,尝试将原始矩阵转换为to_sparse,甚至将值重新转换为整数,但仍然没有快乐。
有人能提出解决问题的最佳方法吗?
编辑: 到目前为止,这是我的代码:
path = "../../reuters.db"
%pylab inline
import pandas as pd
import numpy as np
import pandas.io.sql as psql
import sqlite3 as lite
con = lite.connect(path)
with con:
sql = "SELECT * FROM Frequency"
df = psql.frame_query(sql, con)
print df.shape
df = df.rename(columns={"term":"term_id", "count":"count_id"})
pivoted = df.pivot('docid', 'term_id', 'count_id')
pivoted.to_sparse()
similarity_matrix = pivoted.dot(pivoted.T)
df.head()