我有两个来自不同来源的输入名称,它们并不完全匹配,但是我知道如何通过某些线索将它们匹配。
例如
NYCC REMOTE FINANCE 05212020 Fri 05 Jun 2020 03 54 19 0000
匹配
Committee on Finance__2020-05-21T00:00:00
我想使用机器学习来输入1000个匹配和不匹配的字符串
然后,经过培训,我想传递两个字符串并询问它们是否匹配。
以下是培训表格的链接:https://docs.google.com/spreadsheets/d/1rXOj43WYB5hrzOKexRcVU9uj4n4eTJhpxLOZlOQ9s2k/edit?usp=sharing
我尝试将语义搜索与TF-Hub中的近似最近邻居和文本嵌入一起使用
请参阅https://colab.research.google.com/drive/1FWMlK8ms_3FOcR8zlAhWval3Zubs_gE-?usp=sharing
但是似乎不够具体。它只是在寻找最近的邻居。
我想告诉模型什么匹配,然后给出两个新字符串,询问它们是否匹配。
例如,
Committee on Education 05272020 Thu 28 May 2020 15 00 17 0000
不匹配
Committee on Criminal Justice__2020-03-09T00:00:00
然后问一个问题:是
NYCC Committee on Health w Others 05262020 Wed 27 May 2020 13 52 13 0000
匹配
Committee on Health__2020-05-26T00:00:00
?
当然还有更多新的字符串。
我可以在静态程序中执行此操作,但是输入不受我的控制,并且它们会改变它,我想简单地对数据进行采样并重新训练模型,并告诉我将来的匹配情况。
为此有一个colab笔记本吗?
谢谢。