Question

我有两个来自不同来源的输入名称，它们并不完全匹配，但是我知道如何通过某些线索将它们匹配。

例如

NYCC REMOTE FINANCE 05212020 Fri  05 Jun 2020 03 54 19  0000

匹配

Committee on Finance__2020-05-21T00:00:00

我想使用机器学习来输入1000个匹配和不匹配的字符串

然后，经过培训，我想传递两个字符串并询问它们是否匹配。

我尝试将语义搜索与TF-Hub中的近似最近邻居和文本嵌入一起使用

但是似乎不够具体。它只是在寻找最近的邻居。

我想告诉模型什么匹配，然后给出两个新字符串，询问它们是否匹配。

例如，

Committee on Education 05272020 Thu  28 May 2020 15 00 17  0000

不匹配

Committee on Criminal Justice__2020-03-09T00:00:00

然后问一个问题：是

NYCC Committee on Health w Others 05262020 Wed 27 May 2020 13 52 13 0000

匹配

Committee on Health__2020-05-26T00:00:00 ？

当然还有更多新的字符串。

我可以在静态程序中执行此操作，但是输入不受我的控制，并且它们会改变它，我想简单地对数据进行采样并重新训练模型，并告诉我将来的匹配情况。

为此有一个colab笔记本吗？

谢谢。