假设我有一系列单词。例如。 {“我”,“喜欢”,“甜瓜”,“苏珊”,“喜欢”,“苹果”}(只是一个非常简单的例子)我想找到我应该添加句点的地方,AKA我应该将句子分开。所以答案是“我喜欢甜瓜”。 “苏珊喜欢苹果。”
资本化可以提供一些提示。但是大写单词并不能保证起始单词(句子的第一个单词)。例如,缩写如NBA,美国,国家名称如美国,加拿大,它们都是大写的,但可以在句子的中间。
可以用什么算法来完成这项工作?
答案 0 :(得分:1)
如果没有构建分类器并在大型语料库上进行训练,我认为寻找一个句号后跟一个大写词是唯一简单的方法。也可以找到像这样的大写缩写词的长列表(以及潜在的专有名词),这可以帮助你。
NLTK有一些很好的工具,我相信这些方法的组合,并获得非常好的精确度。