我从使用机器学习技术进行属性匹配的常见问题开始,对此进行了解答。
Attribute mapping using Machine learning
我利用Fuzzywuzzy进行了清理,清除了此处突出显示的数据后,精度达到了〜75%。我遇到了一个有趣的问题,其中一些属性似乎根本不适合清理逻辑。
在此处突出显示一些内容:
startDate EFT_DATE
endDate TERMNT_DATE
ds attributeDescription
如您所见,属性之间没有相互关系。我遇到了类似的问题,而我能找到的最接近的问题是下面的某些字符缺失的句子(句子完全不同)
Python - How to intuit word from abbreviated text using NLP?
我尝试查看gensim,但是属性不是同义词,并且我没有大量的训练数据集。
我应该使用像结构这样的硬编码哈希图,并在获得此类属性时不断更新它,还是有更好的方法来解决此问题?仅供参考,此类属性约占我数据集的20%,因此我能够成功处理剩余的80%。