技术词分离

时间:2014-06-25 07:01:26

标签: dataset nlp data-mining

对于一个项目,我需要一个技术计算机科学词汇数据库(更具体地说,属于学术性质的词汇,因此堆栈溢出标签可能不起作用)。我正在尝试使用Coursera讲座文本文件来构建数据库,但是它们的问题是因为" ASR"文本没有明确地彼此分开,例如“几个过渡”和“过渡”。一起出现在一个文本文件中。无论如何,我可以将它们分开吗?如果存在任何类似的数据库,也会感激任何帮助。

1 个答案:

答案 0 :(得分:2)

以下帖子与您的非常相似,可以为您提供一些见解。基本思想是创建一个isword()方法,并在不是字典单词的所有字符串拆分上尝试它。 isword()可以通过使用trie进行优化。这种方法非常简单,如果您只尝试拆分未通过拼写检查的单词,则应该足够快。

How to split a string into words. Ex: "stringintowords" -> "String Into Words"?