自定义名称检测

时间:2020-03-06 22:04:05

标签: machine-learning nlp detection named-entity-extraction

这是一个真正处于早期阶段的项目,我正在尝试寻找从哪里开始的想法。
任何帮助或指针将不胜感激!

我的问题:
我的一侧是文本,另一侧是命名的GraphDB元素列表(通常名称是首字母缩写词或多字表达式)。我的文字没有注释。
我想检测文本中显式使用的名称。诀窍在于,它不一定是完美的字符串匹配(例如,首字母缩写词可用于缩短多词表达式,或者可以省略一小部分)。因此,简单的字符串搜索不会有100%的调用率(即使可以用作启动器)。

如果我只有一个输入并且希望它与名称之一匹配,那么我将做一个简单的编辑距离计算,仅此而已。让我感到烦恼的是,我必须在整个文本中都这样做,但我不知道如何解决/解决问题。
我无法以N-gram分解所有内容,因为我的命名实体可以是单个单词,也可以是七个单词长...或者可以吗?
我有成千上万个Graph元素,所以我认为NER不能在这里应用...还是可以?

一个例子可能是:
我的名字列表是['Graph Database','Manager','Employee Number 1']
文字是:

每天早晨, 经理 浏览 图形数据库 以查找更新。每天晚上, 员工1 更新 GraphDB

我想在这段文本中将突出显示的4个部分映射到列表中的相应项目。



我在机器学习方面的背景很小,但是我从未真正做过NLP。明确地说,我不在乎这些词的含义,我只想能够检测它们。

谢谢

0 个答案:

没有答案