有没有办法使用ntlk或其他东西从句子的依赖解析树获得置信度分数或任何分数?
非常感谢任何建议和意见!
答案 0 :(得分:1)
这是一项艰巨的任务,我不知道有任何工具可以做,但如果您可能在语料库邮件列表或reddit的语言技术部分发布内容,您将获得更好的回复。但如果是研究问题,我建议在penntreebank数据集上训练PCFG,然后用它来计算分配给句子的解析树的概率。您可以抓取Mark Johnson's实施。搜索此行:
cky.tbz包含CKY PCFG解析器的非常快速的C实现, 以及从树库等提取PCFG的程序 用于我1999年的CL文章。 (最后更新于2006年3月6日)
CYK(维特比)是一种动态编程算法。 PCFG代表概率CFG,您通常使用penntreebank数据集进行训练。对句子的所有可能的解析树的概率的总和可以被解释为句子在语法上是正确的。很抱歉,如果这不是真正的答案,但这是一个有效的答案,如果您决定这样做,我可以告诉您更多细节:)。