我正在寻找一种学习如何适应大型数据集的方法。我是一名大学生,所以我所做的一切都是好的"大小和复杂性。本学期与教授一起研究项目,我必须想象一个有点大(根据我的经验)数据集之间的关系。这是一个15 MB的CSV文件。
我在Python中编写了大部分数据,使用GNUPlot可视化。
那里有关于这个主题的可访问的书籍或网站吗?使用Python的奖励积分,更多"基本"可视化系统比依靠gnuplot。我想是开罗什么的。
寻找从数据挖掘,处理到可视化的东西。
编辑:我更多地寻找可以教会我的重要想法的东西。#34;我可以自己编写代码,但是寻找人们用来处理大型数据集的技术。我的意思是,我的15 MB足够小,我可以将我需要的所有内容放入内存中,然后开始运算。人们如何看待5 GB数据集?答案 0 :(得分:12)
我认为最基本的技能是数学和统计学的良好基础。这可以帮助 您可以评估和选择各种过滤数据的技术,以及 在保持其完整性的同时减少其体积和维度。最后 你想做的事情就是做一些漂亮的东西来展示模式或 那些不存在的关系。
要解决某些类型的问题,您需要学习一些数学知识,以了解特定算法的工作原理以及它们对数据的影响。有各种算法用于聚类数据,降维,自然 您可能永远不会使用其中的许多,具体取决于您要分析的数据类型,但互联网上有丰富的资源 (和Stack Exchange站点)你需要帮助。
对于数据挖掘技术的介绍性概述,Witten的Data Mining很好。我有第一版,它用简单的语言解释概念,并加入了一些数学。我推荐它,因为它提供了一个很好的概述并且它不是太昂贵 - 当你在字段中阅读更多时,你会注意到很多书很贵。唯一的缺点是许多专门使用WEKA的页面,这是一个Java数据挖掘包,当你使用Python时它可能不太有用(但它是开源的,所以你可以从源代码中收集一些想法)我还发现Introduction to Machine Learning提供了一个很好的概述,也是价格合理的,有了更多的数学。
为了在一台机器上创建您自己的发明的可视化,我认为基础知识可以帮助您入门:Python,Numpy,Scipy,Matplotlib和 您有经验的优秀图形库,如PIL或 Pycairo。有了这些,您可以通过自定义绘图程序来处理数字,在图表上绘制图表,以及完成任务。
当您想要创建移动的交互式可视化时,像 基于Java的Processing库使这很容易。那里 甚至是通过Jython编写处理草图in Python的方法,以防您不想编写Java。
如果您需要它们,还有更多工具,例如OpenCV (computer vision, machine learning),Orange (data mining, analysis, viz)和NLTK (natural language, text analysis)。
像Edward Tufte这样的字段中的人们的书籍和类似的引用 Information Graphics 可以帮助您更好地了解创建可视化的方法 有效地展示它们。
Flowing Data,Infosthetics,Visual Complexity和Information is Beautiful等网站显示最近,有趣的网站 来自整个网络的可视化。您还可以在互联网上查看many compiled lists的visualization sites。从这些作为种子开始并开始导航,我相信你会找到很多有用的网站和鼓舞人心的例子。
(这最初是评论,但增长太久了)
答案 1 :(得分:4)
查看信息是美丽的。它不是一本技术书籍,但它可能会为您提供一些可视化数据的想法。
也许看一下Principles of Data Mining的前三章,它介绍了数据挖掘环境中可视化数据的一些概念,我发现它在大学期间有些部分很有用。
希望这有帮助
答案 2 :(得分:2)
如果您正在寻找可视化而不是数据挖掘和分析,那么Edward Tufte的定量信息的视觉显示被认为是该领域最好的书之一。
答案 3 :(得分:1)
我喜欢Janert的使用开源工具进行数据分析这本书。这是一个非常广泛的数据分析方法调查,重点是如何理解产生数据的系统,而不是复杂的统计方法。一个警告:虽然所使用的数学并不是特别先进,但我认为你需要对数学论证感到满意,才能从本书中获得更多。