我有很多想要从中提取数据的电子邮件。电子邮件包含数据,但格式不同。
以下示例包含有关货件请求的数据:
Account: SugarHigh Inc
Qty: 1,000 Tons Sugar
Date: 9 - 15 July
From: NY
To: IL
我想将上述内容提取为以下格式:
Account Quantity Product FromDate ToDate From To
------- -------- ------- -------- ------ ---- --
SugarHigh Inc 1000 Sugar 9 July 15 July NY IL
相同的请求可以以不同的格式到达。例如:
Acc: SugarHigh Inc
Qty/Date: 1,000 Tons Sugar/9 - 15 July
From/To: NY/IL
有些请求甚至可以有更多或更少的字段或以不同的方式描述。
可以使用机器学习来帮助完全/部分提取这些数据吗?如果是这样,对于这类问题存在什么类型的算法/模型?我假设我可能还需要使用某种类型的字典来表示已知单词,例如产品或位置。
答案 0 :(得分:0)
是的,你可以从阅读this post on text mining开始。话虽这么说,我建议只使用一些(模糊)字符串搜索。这些数据的可变性是有限的。每次遇到新模式时,只需将其添加到算法中即可。应该会给你带来更好的结果,并且花费更少的时间。