我有一个大的csv文件(1000行x 70,000列),我想在2个较小的csv文件之间创建一个联合(因为这些csv文件将来会更新)。在Tableau中使用如此大的csv文件会导致处理时间过长,并且有时会导致Tableau停止响应。我想知道处理这些大型csv文件的更好方法是什么。通过拆分数据,将csv转换为其他数据文件类型,连接到服务器等。请告诉我。
答案 0 :(得分:1)
您应该确保的第一件事是您在本地而不是通过网络访问该文件。有时它很小,但在某些情况下,可能会导致Tableau读取文件时出现一些主要的减速。
除此之外,您的文件相当宽,应该对其进行规范化,以便您获得更多行和更少列。 Tableau很可能会更快地读取它,因为它需要分析的列数较少(数据类型等)。
如果您不知道如何规范化CSV文件,可以使用以下工具:http://www.convertcsv.com/pivot-csv.htm
在Tableau中对文件进行规范化和连接后,您可能希望在Tableau中提取它以提高性能和文件压缩。
答案 1 :(得分:0)
问题不在于csv文件的 size :它是结构。几乎所有试图消化csv的东西都会有很多行,但是列数不多。通常,列定义数据类型(例如,客户编号,事务值,事务计数,日期...),行定义数据的实例(单个事务的所有值)。
Tableau可以愉快地处理数百个(甚至数千个)列和数百万行(我很高兴地摄取了2500万行CSV)。
通常会出现非常宽的表格,因为您进行了“旋转”分析,其中列中的一组数据类别和行中的另一组数据类别。为了进行有效分析,您需要撤消数据透视(或从其源代码中获取数据)。循环遍历整个表(您甚至可以在Excel VBA中执行此操作,尽管通过逐行直接读取CSV而不是打开文件来显示列数)。将第一行(可能是列标题)转换为新列(因此每个新行包含原始行标签和每个列标题的每个组合以及CSV文件中相关单元格的相关数据值)。新表格将是3列宽,但包含CSV中的所有数据(假设CSV的结构与我假设的一样)。如果我误解了文件的结构,你会遇到比我想象的更大的问题!