我有一个超过100 M行的Teradata表,我希望对其进行一些规范化。
其中一列是以逗号分隔的字符串,它详细列出了我的数据的无效原因列表。 字符串中的原因数不是常数。 我想要做的是分离该字符串中的值,然后将它们标准化,以便我可以分析我的数据。
string example:{“invalid reason 1”:1,“invalid reason 2”:1,“invalid cause 3”:2}
我希望将其标准化为:
Invalid_reason
value
invalid reason 1
1
invalid reason 2
1
invalid reason 3
2
任何想法?