属性匹配-映射的属性之间很少有共同点

时间:2018-08-06 13:24:58

标签: machine-learning nlp gensim abbreviation fuzzywuzzy

我从使用机器学习技术进行属性匹配的常见问题开始,对此进行了解答。

Attribute mapping using Machine learning

我利用Fuzzywuzzy进行了清理,清除了此处突出显示的数据后,精度达到了〜75%。我遇到了一个有趣的问题,其中一些属性似乎根本不适合清理逻辑。

在此处突出显示一些内容:

startDate     EFT_DATE
endDate       TERMNT_DATE
ds            attributeDescription 

如您所见,属性之间没有相互关系。我遇到了类似的问题,而我能找到的最接近的问题是下面的某些字符缺失的句子(句子完全不同)

Python - How to intuit word from abbreviated text using NLP?

我尝试查看gensim,但是属性不是同义词,并且我没有大量的训练数据集。

我应该使用像结构这样的硬编码哈希图,并在获得此类属性时不断更新它,还是有更好的方法来解决此问题?仅供参考,此类属性约占我数据集的20%,因此我能够成功处理剩余的80%。

0 个答案:

没有答案