我们想建立一个公司公司产品文档的字典,创建一个固定的术语,因此我们要计算特定单词和短语的出现频率。
这可以通过几种不同的方法解决,但是我们想以某种方式解决的问题是编写一个XSLT算法,该算法可以识别短语,因为特定的单词经常一起出现(因此我们不必事先指定所有短语及其所有带有不同词缀,词缀等的版本。
您怎么看,这个任务可以用XSLT完成,还是我们应该照顾其他解决方案?
如果有人对我们应该如何开始有任何有用的建议,我将很高兴听到您的想法并就此进行对话!
答案 0 :(得分:0)
您正在寻找搭配,搭配在算法上与Pointwise mutual information相关联。
在XSLT中,没有用于自然语言处理(NLP)的框架,因此您必须发明一个框架。但是,存在用于编程语言的NLP框架,例如Python的NLTK。检出this example for finding collocations using Python。
使用以流行的数据挖掘语言(例如Python或R)编写的外部应用程序可能是最简单的。(您甚至可以将其插入DITA OT处理中。)您还可以考虑使用现有解决方案的供应商。我还没有进行任何深入的搜索,但是我已经看到Watson,Semaphore甚至XDocs之类的系统从语言分析中返回结果。