如何处理格式略有不同的数据?

时间:2014-03-07 00:06:51

标签: excel preprocessor etl

我想自动处理.xls文件中的某些数据。数据格式因来自不同来源而有所不同。

手动处理数据会输出以下格式的文件:

ID(数字)| NAME(字符串)| PRICE(浮点数)

正如我所说,信息通常是在列中,但它可以是行,或者可以有两个表,我必须只处理一个。

我考虑了三种方法:

  1. 使用策略模式。缺点:无论如何,我将不得不对每个案例进行编码。
  2. 使用ETL工具。缺点:我认为这不仅仅是我需要的。
  3. 使用线性回归或神经网络或其他机器学习算法,其中示例将是一对(.xls原始文件,.xls处理文件)。缺点:我不知道目标函数的度量标准是什么(两个excel文件之间的相似性?)
  4. 感谢您提供任何帮助或提示!

1 个答案:

答案 0 :(得分:0)

我不是使用线性回归或神经网络的专家。

这是困难的情况之一,因为数据格式各不相同。 我在项目中观察到的是,我们每次使用ETL工具(ssis)进行编码。 使用线性回归或神经网络很困难,需要良好的技能和对建模的理解。