我正在寻找一种识别Tweet文本中提到的英国大学名称的方法。
我有一个完整的大学名称列表,但问题是处理缩短版本,例如" aber uni" (阿伯里斯特威斯大学),"员工大学" (斯塔福德郡大学)或" portsmouth" (朴茨茅斯大学)。
我已经查看了Apache Stanbol和OpenNLP尝试命名实体识别的路线,虽然这些符合全名但我似乎找不到一种方法来训练它们以识别名称的变体(或者实际上是小写版本)未识别的名称)。
答案 0 :(得分:0)
收集大学名单(这很容易)并从Freebase中删除每所大学的名单: What is one way to find related names using the web?