machine-learning - 自定义名称检测

这是一个真正处于早期阶段的项目，我正在尝试寻找从哪里开始的想法。
任何帮助或指针将不胜感激！

我的问题：
我的一侧是文本，另一侧是命名的GraphDB元素列表（通常名称是首字母缩写词或多字表达式）。我的文字没有注释。
我想检测文本中显式使用的名称。诀窍在于，它不一定是完美的字符串匹配（例如，首字母缩写词可用于缩短多词表达式，或者可以省略一小部分）。因此，简单的字符串搜索不会有100％的调用率（即使可以用作启动器）。

如果我只有一个输入并且希望它与名称之一匹配，那么我将做一个简单的编辑距离计算，仅此而已。让我感到烦恼的是，我必须在整个文本中都这样做，但我不知道如何解决/解决问题。
我无法以N-gram分解所有内容，因为我的命名实体可以是单个单词，也可以是七个单词长...或者可以吗？
我有成千上万个Graph元素，所以我认为NER不能在这里应用...还是可以？

一个例子可能是：
我的名字列表是['Graph Database'，'Manager'，'Employee Number 1']
文字是：

每天早晨，经理浏览 图形数据库 以查找更新。每天晚上， 员工1 更新 GraphDB 。

我想在这段文本中将突出显示的4个部分映射到列表中的相应项目。

我在机器学习方面的背景很小，但是我从未真正做过NLP。明确地说，我不在乎这些词的含义，我只想能够检测它们。

谢谢

自定义名称检测

0 个答案: