如何手动控制数据模式解释

时间:2019-05-14 15:59:37

标签: excel pandas csv google-cloud-dataprep

当我从https://www1.ncdc.noaa.gov/pub/data/uscrn/products/subhourly01/2017/CRNS0101-05-2017-TX_Austin_33_NW.txt导出公共天气数据时,只要太阳辐射> 9,我剩下的所有列的所有数据就会集中到一个列中,如下所示。我尝试过以txt和csv格式上传,但问题仍然存在于excel,表格和dataprep中。

为什么会这样?

是否有一种编程方式可以解决此问题,以便按预期的方式填充数据,每列1个值?

CSV columns

1 个答案:

答案 0 :(得分:1)

可能是因为未正确检测到初始数据结构。如果数据集的第一行与其余行的结构不同,则会发生这种情况。

要在Dataprep中解决此问题,可以按照以下步骤指示如何构造数据集:

  1. 转到流视图
  2. 右键单击数据集,然后选择“删除结构...” remove structure...
  3. 打开食谱
  4. 插入拆分行步骤:
    • splitrows col: column1 on: '\n'
  5. 使用空格正则表达式分隔列(例如/\s+/
    • splitpatterns col: column1 type: on on: /\s+/ limit: 22

(您可以在创建新步骤时将以下命令复制并粘贴到搜索输入中)

这是您应该获得的: recipe

注意:导入数据集时,也可以防止进行初始结构检测。参见https://cloud.google.com/dataprep/docs/html/Remove-Initial-Structure_136154971

detect initial structure - unchecked