我正致力于一个专注于计算机技术文档的文本挖掘项目。所以有很多术语。像词性标注这样的任务需要一些训练数据来构建pos-tagger。我认为这个训练数据应该来自同一个域,正确标记“.NET,COM,JAVA”等字样。
那我在哪里可以找到这样的语料库?或者有什么工作吗?或者我们可以调整现有的标记器来处理特定于域的任务吗?
答案 0 :(得分:3)
收集培训数据(和定义功能)将是此问题中最难的一步。我确定那里有数据集。但另一种选择是识别一些专注于您感兴趣的领域的期刊或新闻网站,并抓取它们并下拉文本,或许通过搜索关键字验证您下拉的每篇文章。在制定专注于选举的语料库之前,我已经这样做了。
答案 1 :(得分:1)
不幸的是,它是特定于域的,您可以在其中找到这样的语料库。
捕捉-22。专业数据没有一般来源。
就像没有通用软件来解决特定领域的问题一样。