我目前正在开展一个项目,我正在接收电子邮件,使用电子邮件包剥离邮件正文,然后我想使用体育,政治,技术等标签对它们进行分类。我已经成功地从我的电子邮件中删除了邮件正文。我想开始分类。
为了制作体育,科技,政治,娱乐等多个标签,我需要用一些单词来制作标签。
的示例体育标签将有标签数据:足球,足球,曲棍球......
我在哪里可以找到帮助我的在线标签数据?
答案 0 :(得分:2)
您可以使用DMOZ。
获奖,有不同种类的文字。例如,电子邮件文本中最常见的一个词是Hi
或Hello
,但在维基文Hi
和Hello
中不会是常用词
答案 1 :(得分:1)
您要做的事情称为主题建模: https://en.wikipedia.org/wiki/Topic_model
主题列表非常依赖于您的训练数据集以及您构建此目标的最终目的。 一个好的起点可以在这里: https://nlp.stanford.edu/software/tmt/tmt-0.4/
您可以查看他们的主题,但您也可以使用它来为您的数据提供一些初始主题,并在他们的主题之上工作。
答案 2 :(得分:1)
您可以使用BBC数据集。 它标有可以提供帮助的新闻文章。
用于特征提取,删除停用词,执行词干,使用带有tf-idf的n-gram,然后选择最佳功能