标签文本文档 - 监督机器学习

时间:2017-07-16 04:05:43

标签: nlp nltk stanford-nlp opennlp

我目前正在开展一个项目,我正在接收电子邮件,使用电子邮件包剥离邮件正文,然后我想使用体育,政治,技术等标签对它们进行分类。我已经成功地从我的电子邮件中删除了邮件正文。我想开始分类。

为了制作体育,科技,政治,娱乐等多个标签,我需要用一些单词来制作标签。

的示例

体育标签将有标签数据:足球,足球,曲棍球......

我在哪里可以找到帮助我的在线标签数据?

3 个答案:

答案 0 :(得分:2)

您可以使用DMOZ

获奖,有不同种类的文字。例如,电子邮件文本中最常见的一个词是HiHello,但在维基文HiHello中不会是常用词

答案 1 :(得分:1)

您要做的事情称为主题建模: https://en.wikipedia.org/wiki/Topic_model

主题列表非常依赖于您的训练数据集以及您构建此目标的最终目的。 一个好的起点可以在这里: https://nlp.stanford.edu/software/tmt/tmt-0.4/

您可以查看他们的主题,但您也可以使用它来为您的数据提供一些初始主题,并在他们的主题之上工作。

答案 2 :(得分:1)

您可以使用BBC数据集。 它标有可以提供帮助的新闻文章。

用于特征提取,删除停用词,执行词干,使用带有tf-idf的n-gram,然后选择最佳功能