我正在处理一个非常大的数据集,我想创建一个包含有关数据集中列的元数据的元表。
例如,对于int
列,我可能想要total
,max-value
,average-value
,min-value
等。因此,具有数百万条年龄记录的“年龄”列将具有一个包含以下内容的元表:
total = 1000000
max-value = 110
min-value = 4
average-value = 32
etcetera...
我有int
,boolean
,string
,date
,float
和date
列。
问题:
在哪里可以找到/包含这些字段的基本元数据的列表是什么? 或者除了以上所述,我还能做些什么?
答案 0 :(得分:0)
从统计角度来看,Sub tgr()
Dim ws As Worksheet
Dim rCopy As Range
Dim rDest As Range
Dim dtLastDate As Date
Set ws = ActiveWorkbook.ActiveSheet
Set rCopy = ws.Range("A1").CurrentRegion
Set rDest = ws.Cells(1, ws.Columns.Count).End(xlToLeft).Offset(, 2)
dtLastDate = ws.Cells(1, ws.Columns.Count).End(xlToLeft).Value2
rCopy.Copy rDest
ws.Cells(3, rDest.Column + rCopy.Columns.Count - 1).Resize(rCopy.Rows.Count - 2).ClearContents
rDest.Cells(1, 1).Value = dtLastDate + 1
End Sub
和int
是典型的因变量(图表上的Y轴)。对于那些(在给定的集合上),您可以计算统计值,例如算术/几何平均值,中位数,标准差,方差等。
float
,string
和boolean
通常是独立变量(或回归变量-图表上的X轴)。因此,不应对其进行描述。从技术上讲,您可以根据一组布尔值或日期(您可能认为它们是依赖的)来计算中位数,但是通常这没有多大意义。在字符串列上,您可以计算字符串的平均长度,字符串中使用的不同字符的数量,甚至可以计算大写/小写字母。但是我真的不认为这些信息对任何人都有用。