我知道这是一个普遍的,开放式的问题。我本质上是在寻找帮助来决定前进的方向,也许还有一些阅读材料。
我正在开发一种算法,该算法可以进行非结构化文本挖掘,并尝试从该文本中提取特定内容 - 乐队(单个艺术家,乐队等)的名称。文本本身没有可预测的结构,但它相对较小(1,2行文本)。
一些例子可能是(不是真实事件):
Concert Green Day At Wembley Stadium
Extraordinary representation - Norah Jones in Poland - at the Polish Opera
现在,我正在考虑尝试分类器,但文本似乎很小,无法为其提供任何真实的培训信息。 可能还有其他一些文本挖掘技术,启发式算法或算法可以为这类问题产生良好的结果(或者可能没有算法)。
答案 0 :(得分:2)
由于您的数据结构,预先训练的模型可能表现不佳。此外,一般的组织, location 和 person 类别可能对您没用。
我不认为文本本身太小,大多数NER系统一次只能处理一个句子。因此,使用NER库提供自己的训练集可能会很有效,例如http://nlp.stanford.edu/ner/index.shtml
如果您不想创建训练集,则需要一本包含所有乐队/艺术家的词典。然后你显然找不到未知的乐队/艺术家。
答案 1 :(得分:0)
有简单的NER算法可以简化任务: 取出可能(或不是)命名实体的单词,并在Google或Yahoo(通过API)中搜索它们两次:作为单独的单词和精确的短语(即带引号)。除以结果数。存在阈值(< 30),其确定单词是否形成命名实体。