我想创建一个相关性分析,并在Seaborn热图中可视化结果。
但不知怎的,我似乎在我的corr中得到27列。矩阵,但我的热图中只有21列。它们使用相同的pandas DataFrame。是否有人能够帮助'对齐'这两个输出,所以它们更可信?
我无法提供我的数据,因为它们已被分类。但我可以提供输出代码的相关部分:
new_df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 406590 entries, 0 to 406589
Data columns (total 27 columns):
status 406590 non-null object
ZipCode 406590 non-null int64
CommuneName 406590 non-null object
CompanyType 406590 non-null object
sectiondescription 406590 non-null object
Db07description 406590 non-null object
FoundedDate 406590 non-null int64
UpdatedAt 406590 non-null object
HasSupplementaryInformationOnOtherMattersExtendedReview 406590 non-null int64
NumberOfSupplementaryInformationOnOtherMattersExtendedReview 406590 non-null int64
NumberOfNegativeEquityStreak 406590 non-null int64
NumberOfNegativeEquityTotal 406590 non-null int64
HasNegativeEquity 406590 non-null int64
GrossProfit 211340 non-null float64
ProfitLoss 404409 non-null float64
ProfitLossDeltaPercentage 293324 non-null float64
CurrentAssets 373672 non-null float64
Assets 401293 non-null float64
ContributedCapital 389849 non-null float64
Equity 403463 non-null float64
ShorttermLiabilitiesOtherThanProvisions 370314 non-null float64
LiabilitiesAndEquity 401269 non-null float64
CurrentRatio 351068 non-null float64
ReturnOnInvestment 335243 non-null float64
Solidity 389800 non-null float64
SolidityDelta 288162 non-null float64
SolidityDeltaPercentage 286526 non-null float64
dtypes: float64(14), int64(7), object(6)
memory usage: 83.8+ MB
new_df
new_df.corr()
ZipCode FoundedDate HasSupplementaryInformationOnOtherMattersExtendedReview NumberOfSupplementaryInformationOnOtherMattersExtendedReview NumberOfNegativeEquityStreak NumberOfNegativeEquityTotal HasNegativeEquity GrossProfit ProfitLoss ProfitLossDeltaPercentage ... Assets ContributedCapital Equity ShorttermLiabilitiesOtherThanProvisions LiabilitiesAndEquity CurrentRatio ReturnOnInvestment Solidity SolidityDelta SolidityDeltaPercentage
ZipCode 1.000000 -0.069511 0.002012 0.002012 -0.026386 -0.023624 -0.039029 -0.006337 -0.000921 -0.000053 ... -0.005082 -0.001132 -0.001403 -0.005764 -0.004654 0.001595 -0.000647 -0.001542 -0.002016 -0.002050
FoundedDate -0.069511 1.000000 0.001771 0.001771 0.075595 0.074350 0.136362 -0.034162 -0.007959 0.004283 ... -0.008046 -0.005028 -0.006730 -0.009167 -0.008307 -0.003366 -0.002030 -0.000224 0.000021 -0.000512
HasSupplementaryInformationOnOtherMattersExtendedReview 0.002012 0.001771 1.000000 1.000000 0.017882 0.018207 0.017321 -0.001370 -0.000323 0.000126 ... -0.000610 -0.000255 -0.000344 -0.000735 -0.000598 -0.000225 0.000123 0.000661 0.000321 -0.000294
NumberOfSupplementaryInformationOnOtherMattersExtendedReview 0.002012 0.001771 1.000000 1.000000 0.017882 0.018207 0.017321 -0.001370 -0.000323 0.000126 ... -0.000610 -0.000255 -0.000344 -0.000735 -0.000598 -0.000225 0.000123 0.000661 0.000321 -0.000294
NumberOfNegativeEquityStreak -0.026386 0.075595 0.017882 0.017882 1.000000 0.901202 0.810353 -0.010813 -0.003785 0.001227 ... -0.003773 -0.000702 -0.002996 -0.003183 -0.003471 -0.001383 -0.001574 -0.024193 -0.007302 0.005404
NumberOfNegativeEquityTotal -0.023624 0.074350 0.018207 0.018207 0.901202 1.000000 0.718382 -0.012509 -0.004148 0.000812 ... -0.003571 -0.000941 -0.003279 -0.002901 -0.003262 -0.001744 -0.001196 -0.021833 -0.006061 0.005286
HasNegativeEquity -0.039029 0.136362 0.017321 0.017321 0.810353 0.718382 1.000000 -0.013184 -0.005208 -0.001404 ... -0.004242 -0.000863 -0.003838 -0.002919 -0.003594 -0.001474 -0.005394 -0.019498 -0.008668 0.004836
GrossProfit -0.006337 -0.034162 -0.001370 -0.001370 -0.010813 -0.012509 -0.013184 1.000000 0.313382 -0.000074 ... -0.130506 -0.095524 -0.130232 -0.152877 -0.134392 0.001726 0.000117 0.000395 0.000190 -0.000176
ProfitLoss -0.000921 -0.007959 -0.000323 -0.000323 -0.003785 -0.004148 -0.005208 0.313382 1.000000 0.000010 ... 0.379039 0.910941 0.392317 -0.098137 0.380585 0.000024 0.000285 0.000146 0.000118 -0.000072
ProfitLossDeltaPercentage -0.000053 0.004283 0.000126 0.000126 0.001227 0.000812 -0.001404 -0.000074 0.000010 1.000000 ... 0.000016 0.000004 0.000013 -0.000008 -0.000001 0.000023 -0.007085 -0.032133 -0.000086 0.000009
CurrentAssets -0.005511 -0.018441 -0.001189 -0.001189 -0.007721 -0.008139 -0.006999 0.092310 0.055951 -0.000039 ... 0.555020 0.178718 0.201831 0.717497 0.602365 0.000269 0.000301 0.000252 0.000141 0.000090
Assets -0.005082 -0.008046 -0.000610 -0.000610 -0.003773 -0.003571 -0.004242 -0.130506 0.379039 0.000016 ... 1.000000 0.654815 0.459804 0.741743 0.976263 0.000031 0.000033 0.000121 0.000053 0.000014
ContributedCapital -0.001132 -0.005028 -0.000255 -0.000255 -0.000702 -0.000941 -0.000863 -0.095524 0.910941 0.000004 ... 0.654815 1.000000 0.481378 0.180485 0.661261 0.000022 0.000013 0.000047 0.000019 -0.000013
Equity -0.001403 -0.006730 -0.000344 -0.000344 -0.002996 -0.003279 -0.003838 -0.130232 0.392317 0.000013 ... 0.459804 0.481378 1.000000 0.391956 0.458600 0.000033 0.000029 0.000131 0.000063 -0.000017
ShorttermLiabilitiesOtherThanProvisions -0.005764 -0.009167 -0.000735 -0.000735 -0.003183 -0.002901 -0.002919 -0.152877 -0.098137 -0.000008 ... 0.741743 0.180485 0.391956 1.000000 0.768538 -0.000051 0.000050 0.000094 0.000042 0.000094
LiabilitiesAndEquity -0.004654 -0.008307 -0.000598 -0.000598 -0.003471 -0.003262 -0.003594 -0.134392 0.380585 -0.000001 ... 0.976263 0.661261 0.458600 0.768538 1.000000 0.000007 0.000055 0.000129 0.000059 -0.000018
CurrentRatio 0.001595 -0.003366 -0.000225 -0.000225 -0.001383 -0.001744 -0.001474 0.001726 0.000024 0.000023 ... 0.000031 0.000022 0.000033 -0.000051 0.000007 1.000000 0.000011 0.000041 0.000016 -0.000014
ReturnOnInvestment -0.000647 -0.002030 0.000123 0.000123 -0.001574 -0.001196 -0.005394 0.000117 0.000285 -0.007085 ... 0.000033 0.000013 0.000029 0.000050 0.000055 0.000011 1.000000 0.144242 0.145994 0.000021
Solidity -0.001542 -0.000224 0.000661 0.000661 -0.024193 -0.021833 -0.019498 0.000395 0.000146 -0.032133 ... 0.000121 0.000047 0.000131 0.000094 0.000129 0.000041 0.144242 1.000000 0.734009 0.000057
SolidityDelta -0.002016 0.000021 0.000321 0.000321 -0.007302 -0.006061 -0.008668 0.000190 0.000118 -0.000086 ... 0.000053 0.000019 0.000063 0.000042 0.000059 0.000016 0.145994 0.734009 1.000000 0.109639
SolidityDeltaPercentage -0.002050 -0.000512 -0.000294 -0.000294 0.005404 0.005286 0.004836 -0.000176 -0.000072 0.000009 ... 0.000014 -0.000013 -0.000017 0.000094 -0.000018 -0.000014 0.000021 0.000057 0.109639 1.000000
21 rows × 21 columns
它的要点是df.info()确定我有27列,但相关矩阵只显示21。
任何?
答案 0 :(得分:0)
如果没有真正了解数据,很难进入细节,但从你提供的内容来看,我认为这很有用:
如果查看列类型,其中6个类型为object
,并且所有这些类型都被删除。所有这些似乎都是描述性的或其他类似字符串的对象,显然很难与所有数字变量有意义地相关联。例如,&#34; CommuneName
&#34;之间的相关性是什么? (如果是字符串)和&#34; CurrentAssets
&#34;代表什么?
你能做的是找出相关性有意义的地方,并相应地转换这些变量;例如,你可以one-hot-encode一些相关的变量,比如CommuneName
,这样你就可以看到各个公社和他们的资产之间的趋势(采取我上面列出的两个示例特征)。
但是你应该考虑一下这些重要意义。例如,我很难想象你将如何关联&#34; Db07description
&#34; (我假设它只是对某些内容的文本描述)和一个数字,至少没有对描述数据进行重要的预处理以将其转换为一些有意义的向量。如果没有有意义的解释,请考虑从当前分析中删除一些变量(基本上已经由.corr()
为您完成)。
[编辑] 请注意,仅仅因为pandas将您的一些变量读作数字,并不意味着它们有一个非常合理的解释:例如,邮政编码是一个整数。这是否真的意味着该整数应该被解释为对其他东西产生影响,如果它增加或减少?生活在邮政编码95061
比生活在95062
更好,因为它的价值低一个?最好将类似的东西视为分类,而不是数字。