对文档内的单词进行分类

时间:2016-06-02 13:23:16

标签: machine-learning text-classification

我面临的问题是: 我想阅读一个文档,获取该文档的原始字符串,并对信息进行分类。 例如,我想确定字符串何时是“名称”,或者“日期”以及其他一些有用的信息。

是否可以使用机器学习来做到这一点? 我该如何处理这个问题?

这里最难的问题是我不是要对文档本身进行分类,而是对文档中的String信息进行分类。

1 个答案:

答案 0 :(得分:2)

所以关于你如何看待你的问题。我认为您的问题可以表述为实体提取/识别问题,您可以在其中拥有一个文档,并希望在文本中识别特定实体(实体可能是人,日期等)。看看条件随机字段及其应用程序到命名实体识别(简称NER),因为有一些库和&工具已经实施。

例如,请查看StanfordNER