我想处理半结构化文本。可以使用机器学习吗?

时间:2017-01-24 19:53:06

标签: machine-learning

我有很多想要从中提取数据的电子邮件。电子邮件包含数据,但格式不同。

以下示例包含有关货件请求的数据:

Account: SugarHigh Inc
Qty: 1,000 Tons Sugar
Date: 9 - 15 July
From: NY
To: IL

我想将上述内容提取为以下格式:

Account        Quantity     Product     FromDate     ToDate     From     To
-------        --------     -------     --------     ------     ----     --
SugarHigh Inc  1000         Sugar       9 July       15 July    NY       IL

相同的请求可以以不同的格式到达。例如:

Acc: SugarHigh Inc
Qty/Date: 1,000 Tons Sugar/9 - 15 July
From/To: NY/IL

有些请求甚至可以有更多或更少的字段或以不同的方式描述。

可以使用机器学习来帮助完全/部分提取这些数据吗?如果是这样,对于这类问题存在什么类型的算法/模型?我假设我可能还需要使用某种类型的字典来表示已知单词,例如产品或位置。

1 个答案:

答案 0 :(得分:0)

是的,你可以从阅读this post on text mining开始。话虽这么说,我建议只使用一些(模糊)字符串搜索。这些数据的可变性是有限的。每次遇到新模式时,只需将其添加到算法中即可。应该会给你带来更好的结果,并且花费更少的时间。