我是NLP和相关技术的新手。我一直在研究将分类法,例如,主题标签分解为个别术语(例如:#harrypotterworld as harry potter world),以便进行命名实体识别。
但我没有遇到过任何可用的图书馆或以前我可以用来做的工作。这是可以实现的还是我遵循了错误的程序?如果是这样,我可以使用任何可用的库或算法技术吗?
答案 0 :(得分:2)
您正在寻找的是复合分离器。据我所知,这是一个确实有一些实现的问题,其中一些实现得相当好。
不幸的是,我所知道的大部分研究都是针对那些倾向于复合名词的语言(即德语)。 有趣的事实:Hashtag本身就是一个复合词。
我曾经使用过这个:http://ilps.science.uva.nl/resources/compound-splitter-nl/这是一个适用于荷兰语的算法。它基本上使用了一个非复合单词的字典,并假设一个非常简单的复合语法:允许使用诸如 n 和 s 之类的词缀,复合词是始终是字典中2个或更多未复合单词的组合。
我认为你可以使用给定的实现复合主题标签,如果你提供了一个英语词典,并在某种程度上调整了假定的语法(你可能不需要中缀)。
答案 1 :(得分:1)
您是否尝试过此处建议的方法?
https://stackoverflow.com/a/11642687/7337349
问题是单词词典必须包含所谓的专有名词才能很好地用于命名实体识别,理论上它使它成为一个非常大的字典。 (加上频率分布可能难以衡量)
顺便说一句,对于你提到的具体例子 - 哈利波特世界,我认为该链接中的答案是可行的 - 所有单词都出现在答案中链接的dictionary of words中。