有哪些好的算法可以自动标记城市/地区或来源的文字?也就是说,如果博客是关于纽约的,我怎么能以编程方式讲述。是否有声称以任何确定程度这样做的包裹/文件?
我已经看过一些基于tfidf的方法,专有名词交叉点,但到目前为止,没有引人注目的成功,我很欣赏这些想法!
更一般的问题是在给定一些主题列表的情况下将文本分配给主题。
简单/幼稚的方法优先于贝叶斯方法,但我是开放的。
答案 0 :(得分:12)
您正在寻找named entity recognition系统或短NER。有several good toolkits可以帮助您。特别是LingPipe有一个非常decent tutorial。 CAGEclass似乎是针对地理位置的NER而定,但我还没有使用它。
Here's一个很好的博客文章,关于NER与地理位置名称的困难。
如果您使用Java,我建议使用LingPipe NER类。 OpenNLP也有一些,但前者有更好的文档。
如果您正在寻找一些理论背景,Chavez et al. (2005)已经构建了一个有趣的参数并记录下来。
答案 1 :(得分:2)
Latent Semantic Mapping似乎很适合。这就像你可能找到的算法一样幼稚。