我有两个CSV文件。在第一个中,我有:first_name
,last_name
,在第二个中,我有:email
,phone
。这两个文件通过行索引(相同的记录数)连接。我需要将所有数据保存为实木复合地板格式。
第一个选项-将两个方案连接到一个,并将所有内容保存在一个实木复合地板文件中。
第二个选项-分别保存两个方案(作为两个实木复合地板文件)。
根据我的用例,很可能采用第二个选项(2个文件)。最后,我需要使用各种工具来查询数据,大多数情况下是使用Presto。
问题1-是否可以从两个实木复合地板文件中提取数据(比如select first_name, email
)?
问题2-运行时间会有所不同吗?
我已经进行了一些测试,但无法得出准确的结论...
答案 0 :(得分:0)
您可以从这两个表中提取数据,但是需要一些联接键才能合并记录。如果不存在,则可能必须使用 row_number(),前提是两个表中的数据顺序相同。数据大小在这里也很重要。
在大数据世界中,如果必须在查询中非常频繁地联接那些表,则建议使用非规范化格式。这种方法将为您提供更好的性能。