在哪里可以找到文本挖掘任务的特定于域的语料库?

时间:2014-02-27 14:38:51

标签: machine-learning nlp data-mining text-mining corpus

我正致力于一个专注于计算机技术文档的文本挖掘项目。所以有很多术语。像词性标注这样的任务需要一些训练数据来构建pos-tagger。我认为这个训练数据应该来自同一个域,正确标记“.NET,COM,JAVA”等字样。

那我在哪里可以找到这样的语料库?或者有什么工作吗?或者我们可以调整现有的标记器来处理特定于域的任务吗?

2 个答案:

答案 0 :(得分:3)

收集培训数据(和定义功能)将是此问题中最难的一步。我确定那里有数据集。但另一种选择是识别一些专注于您感兴趣的领域的期刊或新闻网站,并抓取它们并下拉文本,或许通过搜索关键字验证您下拉的每篇文章。在制定专注于选举的语料库之前,我已经这样做了。

答案 1 :(得分:1)

不幸的是,它是特定于域的,您可以在其中找到这样的语料库。

捕捉-22。专业数据没有一般来源。

就像没有通用软件来解决特定领域的问题一样。