我是NLP的新手,我必须为我的NLP课程解决练习。基本上,我收到一个原始文本,包含缩写,如(CRF,ABC等)以及其他类型的大写单词(FOOD,HOUSE),我必须对它们进行分类。
我不知道从哪里开始,你能指点我一些算法吗?随机方法可以帮我解决问题吗?
答案 0 :(得分:0)
使用"常规字典"英语单词(拼写dict' s on Linux,WordNet等)并检查单词是否在那里。其次,使用词性标注器。如果单词不是名词,则不太可能是首字母缩略词。最后,检查现有软件,例如首字母缩略词Finder和论文(在Google学术搜索,搜索"首字母缩略词检测")。
答案 1 :(得分:0)
同意fnl。使用包含常用英语单词的词性并训练您的文本数据集。它会自动标记“无”,“动词”和“缩写”。 pos有很多种,如果你能选择一个与你的文本数据有更近的区域,那就更好了。 例如,http://www.cs.cmu.edu/~ark/TweetNLP/为推文提供了一个位置。