我有大量数据看起来像这样(从大量PDF文件中提取的数据很少):
"I used to work as a trader at Mor gan Stanley on the De lta One Equities Desk"
有些单词是用空格分隔的,我编写了一个数据采集算法来分析短语中的每个名词,不幸的是它假设" De"和" lta"是两个不同的词。
我假设最好的修复方法是使用一些在线词典服务/ API也有一些名词支持(即适用于" Mor gan")并给出两个"字"如果它们以一个单词的形式存在,它们将被连接起来。
var x = dataset.split(" ");
for(var i=0;i<x.length;i++){
if(someDictAPIBoolFunction(x[i]+x[i+1])){
dataset[i] = x[i]+x[i+1];
dataset.splice(i+1,1);
}
}
我的问题在于它可能不是最好的方法。此外,是否有人知道任何能够完成此任务的字典API?
谢谢!