我正在撰写一些报纸档案,涉及一些与银行相关的报道。我的问题是美国银行美林,摩根士丹利和摩根大通等名称的报道不同的是不同的国家:BankAM,BofA,BAML或MS,JPM,J.P。Morgan,JP。摩根。我正在使用正则表达式标记器进行预处理。我如何构建某种等价/查找表?与花旗银行,花旗集团,花旗集团和花旗银行一样,花旗集团(在新闻报道中)也是如此。任何帮助都感激不尽。 @jksnw:一个字典将一个单词映射到多个单词。在这种情况下,我需要将许多变体映射到一个“专有名词”。这也意味着我需要阅读{Bank of America Merrill Lynch}作为一个NNP,另一方面,将{MS}作为NNP阅读 - 在正确的背景下 - 与摩根士丹利相当。