JavaScript从部分单词

时间:2015-11-20 11:16:06

标签: javascript algorithm api

我有大量数据看起来像这样(从大量PDF文件中提取的数据很少):

"I used to work as a trader at Mor gan Stanley on the De lta One Equities Desk"

有些单词是用空格分隔的,我编写了一个数据采集算法来分析短语中的每个名词,不幸的是它假设" De"和" lta"是两个不同的词。

我假设最好的修复方法是使用一些在线词典服务/ API也有一些名词支持(即适用于" Mor gan")并给出两个"字"如果它们以一个单词的形式存在,它们将被连接起来。

var x = dataset.split(" ");
for(var i=0;i<x.length;i++){
  if(someDictAPIBoolFunction(x[i]+x[i+1])){
    dataset[i] = x[i]+x[i+1];
    dataset.splice(i+1,1);
  }
}

我的问题在于它可能不是最好的方法。此外,是否有人知道任何能够完成此任务的字典API?

谢谢!

0 个答案:

没有答案