从远程数据源我得到文本半字节(通常不超过100个字符),这些都是大写的。这主要是自然语言,但有散布的缩写和功能(如+和 - )。我想做的是将这个文本转换成一个可读的形式,即大部分都是小写的,除了首字母缩略词和正确地大写名词和名字(这是德语,其中更多的单词大写,比如说,用英语)。
我更喜欢Cocoa(OS X)的解决方案,但欢迎任何其他方法。我读到了关于NSLinguisticTagger(例如in this question),但似乎标记词语在很大程度上取决于已经正确的词汇化。
答案 0 :(得分:1)
我会两次通过。首先将其转换为全小写(句子的开头除外),然后对其进行拼写检查。这应该有希望将大多数专有名词和首字母缩略词变成大写。
这就是你想要使用现有的Cocoa框架。