如何训练tensorflow /机器学习应匹配哪些字符串?

时间:2020-06-09 21:07:42

标签: python tensorflow machine-learning

我有两个来自不同来源的输入名称,它们并不完全匹配,但是我知道如何通过某些线索将它们匹配。

例如

NYCC REMOTE FINANCE 05212020 Fri  05 Jun 2020 03 54 19  0000

匹配

Committee on Finance__2020-05-21T00:00:00

我想使用机器学习来输入1000个匹配和不匹配的字符串

然后,经过培训,我想传递两个字符串并询问它们是否匹配。

以下是培训表格的链接:https://docs.google.com/spreadsheets/d/1rXOj43WYB5hrzOKexRcVU9uj4n4eTJhpxLOZlOQ9s2k/edit?usp=sharing

我尝试将语义搜索与TF-Hub中的近似最近邻居和文本嵌入一起使用

请参阅https://colab.research.google.com/drive/1FWMlK8ms_3FOcR8zlAhWval3Zubs_gE-?usp=sharing

但是似乎不够具体。它只是在寻找最近的邻居。

我想告诉模型什么匹配,然后给出两个新字符串,询问它们是否匹配。

例如,

Committee on Education 05272020 Thu  28 May 2020 15 00 17  0000

不匹配

Committee on Criminal Justice__2020-03-09T00:00:00

然后问一个问题:是

NYCC Committee on Health w Others 05262020 Wed 27 May 2020 13 52 13 0000

匹配

Committee on Health__2020-05-26T00:00:00

当然还有更多新的字符串。

我可以在静态程序中执行此操作,但是输入不受我的控制,并且它们会改变它,我想简单地对数据进行采样并重新训练模型,并告诉我将来的匹配情况。

为此有一个colab笔记本吗?

谢谢。

0 个答案:

没有答案
相关问题