应用错误收集

技术词分离

时间：2014-06-25 07:01:26

标签： dataset nlp data-mining

对于一个项目，我需要一个技术计算机科学词汇数据库（更具体地说，属于学术性质的词汇，因此堆栈溢出标签可能不起作用）。我正在尝试使用Coursera讲座文本文件来构建数据库，但是它们的问题是因为＆＃34; ASR＆＃34;文本没有明确地彼此分开，例如“几个过渡”和“过渡”。一起出现在一个文本文件中。无论如何，我可以将它们分开吗？如果存在任何类似的数据库，也会感激任何帮助。

1 个答案:

答案 0 :(得分：2)

以下帖子与您的非常相似，可以为您提供一些见解。基本思想是创建一个isword（）方法，并在不是字典单词的所有字符串拆分上尝试它。 isword（）可以通过使用trie进行优化。这种方法非常简单，如果您只尝试拆分未通过拼写检查的单词，则应该足够快。

How to split a string into words. Ex: "stringintowords" -> "String Into Words"?