Question

我有一张学生考试成绩表，我想使用python来识别答案之间相关性强或弱的任何学生（即，这里的答案相同，那里的答案相似，等等）。

我看过使用pandas相关函数，但这只会给我不同问题之间的相关性（我相信）。当我尝试转置数据并使用相关函数时，它返回空白。

我的桌子看起来像这样：

 STUDENT ID | CLASS | DATE | GRADE | Q1 | Q2 | Q3 | ... | Q58
 Student 1 | Class 1 | 4/20/2018 | A | 1.3 | 2.5 | 2.0 | 2.1 ...
 Student 2 | Class 1 | 4/20/2018 | B | 3.3 | 0.5 | 4.0 | 0.1 ...
 Student 3 | Class 2 | 4/22/2018 | A | 1.4 | 2.5 | 1.9 | 2.3 ...

我的代码当前如下所示：

import pandas as pd 
from pandas import ExcelWriter

# Pull in Data
path = r"C:\Users\robert.carmody\desktop\Python\Correlation Analysis\TGPS Raw Data.xlsx"
sheet = 'Sheet1'
df = pd.read_excel(path,sheet_name=sheet)

dft = df.transpose()
dft = df.corr()

dfc = df.corr()

#Excel
path2 = r"C:\Users\robert.carmody\desktop\Python\Correlation Analysis\Output.xlsx"
writer = ExcelWriter(path2)
df.to_excel(writer,'Raw Data')
writer.save()

我是A）寻找相关表，以显示每个学生彼此的相关性（基于单个问题，而不是累计分数），或者B）给定特定学生的输入，返回具有以下内容的学生列表：它们对应的相关性。

哪个更容易。

基于相关分析的相似分数

0 个答案: