列python blaze之间的相关性

时间:2014-10-31 11:13:25

标签: python statsmodels blaze

有一个关于如何使用python blaze模块进行分析的简单问题。 所以,我试图做这个代码:

from blaze import SQL,Table
from sqlalchemy import create_engine
from scipy.stats import pearsonr
sql_path=r'/path/to/my/database.db'
e=create_engine('sqlite:///%s'%sql_path)
blz_sql=SQL(e,'analysis_dataframe')
blz_frame=Table(blz_sql)
blz_cols=blz_frame.columns
corr=pearsonr(blz_frame[blz_cols[0]],blz_frame[blz_cols[10]])
print(corr)

我在这里得到了这个错误:

TypeError: len() of unsized object

在阅读了一些blaze文档之后,我发现问题在于将blaze列转换为这样的结构:

import pandas as pd
from blaze import into
df=into(pd.DataFrame,blz_frame[blz_cols[0]]

但是这种转换使得列表列上的pearsonr的迭代计算更慢。 那么,我怎样才能简单地将blaze列转换为np.array以使用计算(如pearsonr或statsmodels.api.Logit(blz_frame.y,blz_frame [[train_cols]])?) 如果它有意义,我使用Anaconda for Python 3.4,我的版本是blaze:

import blaze
print(blaze.__version__)
#returns 0.6.3

1 个答案:

答案 0 :(得分:3)

scipy.stats这样的模块通常会明确地期望一个numpy数组或pandas DataFrame。他们的逻辑被融入到这些数据结构中。

Blaze可以帮助您在外国数据集(例如您的sqlite数据库)上执行numpy或pandas,但无法访问scipy.stats等库并更改其代码。

我看到以下解决方案:

  1. 将sqlite中的所有数据吸收到ndarray / DataFrame中(正如你在这里做的那样)(这很慢)
  2. 改进scipy.stats,以便它不会假设特定的数据结构。 (这需要更改成熟的代码库)
  3. 在包含Blaze
  4. 的更通用界面上写一些基本统计信息

    在Pearson Correlation的情况下,以更一般的方式重新定义算法将非常简单(#3)。也许Blaze-stats或只是一般统计模块在这里是合适的。

    一般来说,Blaze没有提供现有科学python代码可以在外部数据结构上工作的承诺。这是一个崇高的目标。