应用错误收集

时间：2014-02-27 14:38:51

标签： machine-learning nlp data-mining text-mining corpus

我正致力于一个专注于计算机技术文档的文本挖掘项目。所以有很多术语。像词性标注这样的任务需要一些训练数据来构建pos-tagger。我认为这个训练数据应该来自同一个域，正确标记“.NET，COM，JAVA”等字样。

那我在哪里可以找到这样的语料库？或者有什么工作吗？或者我们可以调整现有的标记器来处理特定于域的任务吗？

答案 0 :(得分：3)

收集培训数据（和定义功能）将是此问题中最难的一步。我确定那里有数据集。但另一种选择是识别一些专注于您感兴趣的领域的期刊或新闻网站，并抓取它们并下拉文本，或许通过搜索关键字验证您下拉的每篇文章。在制定专注于选举的语料库之前，我已经这样做了。

答案 1 :(得分：1)

不幸的是，它是特定于域的，您可以在其中找到这样的语料库。

捕捉-22。专业数据没有一般来源。

就像没有通用软件来解决特定领域的问题一样。