我将开发具有许多(100+)类的命名实体识别系统。假设它们的频率大致相等,那么哪种算法应该表现最佳?根据我对CRF如何工作的理解(遗憾的是,远离理想),这里应该没问题。但在某些来源(google books),我发现了另一种观点。
那么,CRF是否适合具有大量类的NER算法?
答案 0 :(得分:0)
我们在这里谈论什么类?不要腼腆:))
您可能最好使用分层方法:
拥有少量的根类,例如" product"," person"," place"。第一遍确定哪一个是哪个。
然后,对于每个根类,都有子类,如"汽车产品","电子产品"等