Microsoft自然语言列表中是否存在等同于“非语言”或“原始”的内容,这会导致分词(即标记化)算法仅使用空格作为分隔符?< / p>
编辑:或者有没有办法告诉微软的技术只有在附加到词汇时才将句号用作标记分隔符?
特定问题(对我们而言)是SQL Server中的全文搜索在对文本进行标记时使用句点作为分隔符。但是我们的文本包含有意义的“非词汇”字符串,如JC7D.14GR.2345DG
,我们希望在不搜索每个块(JC7D and 14GR and 2345DG)
或(JC7D NEAR 14GR NEAR 2345DG)
的情况下进行搜索,因为单独的块方法可能会产生错误当这些值出现在彼此非常接近的列表中时为正数。