基于相关分析的相似分数

时间:2019-01-29 18:37:26

标签: python python-3.x

我有一张学生考试成绩表,我想使用python来识别答案之间相关性强或弱的任何学生(即,这里的答案相同,那里的答案相似,等等)。

我看过使用pandas相关函数,但这只会给我不同问题之间的相关性(我相信)。当我尝试转置数据并使用相关函数时,它返回空白。

我的桌子看起来像这样:

 STUDENT ID | CLASS | DATE | GRADE | Q1 | Q2 | Q3 | ... | Q58
 Student 1 | Class 1 | 4/20/2018 | A | 1.3 | 2.5 | 2.0 | 2.1 ...
 Student 2 | Class 1 | 4/20/2018 | B | 3.3 | 0.5 | 4.0 | 0.1 ...
 Student 3 | Class 2 | 4/22/2018 | A | 1.4 | 2.5 | 1.9 | 2.3 ...

我的代码当前如下所示:

import pandas as pd 
from pandas import ExcelWriter

# Pull in Data
path = r"C:\Users\robert.carmody\desktop\Python\Correlation Analysis\TGPS Raw Data.xlsx"
sheet = 'Sheet1'
df = pd.read_excel(path,sheet_name=sheet)

dft = df.transpose()
dft = df.corr()

dfc = df.corr()

#Excel
path2 = r"C:\Users\robert.carmody\desktop\Python\Correlation Analysis\Output.xlsx"
writer = ExcelWriter(path2)
df.to_excel(writer,'Raw Data')
writer.save()  

我是A)寻找相关表,以显示每个学生彼此的相关性(基于单个问题,而不是累计分数),或者B)给定特定学生的输入,返回具有以下内容的学生列表:它们对应的相关性。

哪个更容易。

0 个答案:

没有答案