我正在寻找一个现有的图书馆来总结或解释内容(我的目标是博客文章) - 对现有自然语言处理库的任何经验?
我对各种语言持开放态度,所以我对能力和能力更感兴趣。精度。
答案 0 :(得分:10)
有一些关于Grok的讨论。现在支持OpenCCG,并且也将在OpenNLP中重新实现。
您可以在http://openccg.sourceforge.net/找到OpenCCG。我还建议使用Curran和Clark CCG解析器:http://svn.ask.it.usyd.edu.au/trac/candc/wiki
基本上,对于释义,你需要做的是写出一些东西,首先解析博客文章的句子,提取这些帖子的语义,然后搜索词汇单词的空间,这将构成创造相同的语义,然后选择一个与当前句子不匹配的语义。这将需要很长时间,可能没有多大意义。不要忘记,为了做到这一点,你需要近乎完美的回指分辨率和能够进行话语层次推断的能力。
如果您只想制作没有机器可识别重复内容的博文,您可以随时使用主题和焦点转换以及WordNet同义词。肯定有网站从AdWords中赚钱,之前已经这样做了。
答案 1 :(得分:5)
我认为他想通过自动解释这个系统正在监控的博客来生成博客文章。
如果您可以合并2到10个相似但不同来源的博客帖子,然后自动复制“真实”摘要(1篇博文的大小),那将非常有趣。
Homeworks也可能很棒。不幸的是,这并不容易。
我能看到的唯一方法是能够将每个句子分解为“含义”,然后随机改变句子结构和一些保留含义的词语。
这些句子意思相同:
编写一个程序将其中一个句子转换为其他句子并不是一件很重要的事情,这些都是简单的句子,来自博客的真实句子要复杂得多。
答案 2 :(得分:0)
你进入了非常远的AI类型域名。我在文本转换为机器知识方面做了大量的工作,主要是使用Attempto受控英语(参见:http://attempto.ifi.uzh.ch/site/),它是一种自然语言(英语),完全可以计算机处理成几种不同的本体,如OWLDL。
看起来像我们的方式会过度杀戮......
是否有理由不只是在博客文章的前几句中加上椭圆作为摘要?
答案 3 :(得分:0)
感谢您的链接。看起来GROK已经死了 - 但它仍然可以用于我的目的。
另外2个链接:
Attempto Controlled English是一个有趣的概念:因为它是一种完全相反的方式来看问题。对于我想做的事情来说并不实用。
@mmattax至于建议采取几句话 - 我不是要提出一个总结:否则这将是一个很好的judo解决方案。我希望实际总结用于其他评估目的的内容。
答案 4 :(得分:0)
可能想尝试GATE或封闭源代码,专有且昂贵的TextAnalyst COM API