我将“自动文本摘要(语言学方法)”作为我的最后一年项目。我收集了足够多的研究论文并完成了它们。我仍然不太清楚'如何去做'的事情。基本上我发现“AUTOMATIC TEXT SUMMARIZER(基于统计)”并发现与我的项目相比它更容易。我的项目指南告诉我不要选择这个(基于统计)并选择基于语言的。
任何曾经研究过或甚至听过这类项目的人都会知道,总结任何文件只不过是对每一句话进行评分(通过一些涉及某些特定算法的方法),然后选择得分高于阈值分数的句子。现在,该项目最困难的部分是选择适当的评分算法,然后再实施。
我有适度的编程技巧,并希望在JAVA中编码(因为我会得到很多API,导致较少的开销)。现在我想知道,对于我的项目,我应该采用什么方法和算法。还有如何实现它们。
答案 0 :(得分:5)
Using Lexical Chains for Text Summarization (Microsoft Research)
对不同算法的分析:DasMartins.2007
文档中最重要的部分:
•Nenkova(2005)分析说没有系统 可以用统计数据击败基线 意义
•引人注目的结果!
请注意 liguistic 方法有两种不同的细微差别:
答案 1 :(得分:2)
自动摘要是一个非常复杂的领域 - 尝试将您的Java技能放在首位,以及您对使用机器学习的统计NLP的理解。然后,您可以通过构建实质内容来完成工作。评估您的解决方案并确保您具体定义了测量变量以及您的评估方式。否则,您的项目注定要失败。这通常被认为是最后一年本科生的高风险项目,因为他们往往无法正确理解原则,然后以不正确的方式实施,然后他们的评估措施都是不明确的,并且没有反映出来他们自己的工作清楚。我的建议是将重点放在一个领域而不是许多摘要中,因为您可以拥有单个和多个文档摘要。您使项目变得越多样化,您获得好成绩的可能性就越小。保持专注和深入。评估其他人的工作,然后评估你决定采取的过程和结果。
读物: -Jurafsky关于NLP的书有一个关于摘要和QA的后面部分。 -inderjeet mani的文本摘要非常好
了解术语加权,基于质心的摘要,对数似然比,一致性关系,句子简化,最大边际相关性,冗余以及实际上重点摘要的内容。
您可以使用有监督或无监督的方法以及混合方式进行尝试。 语言是一个更安全的选择,这就是为什么你被建议采取这种方法。 尝试在语言上尝试,然后建立统计信息以杂交您的解决方案。 使用它作为练习来学习算法的理论和实际意义,并建立在你的知识基础之上。毫无疑问,你必须向评审小组解释和捍卫你的项目。
答案 2 :(得分:0)
如果你真的读过那些研究论文和研究书籍,你可能知道已知的东西。现在,您可以在Java应用程序中实现这些研究论文和研究书籍的知识。或者你可以通过做一些创新/发明来扩展人类的知识。如果你确实扩展了人类知识,你就成了一名真正的科学家。
答案 3 :(得分:0)
请在以下两个主要方面更具体地提出您的问题:
答案 4 :(得分:0)
几年前,谢菲尔德大学在automatic email summarising做了一些工作,作为欧盟FASiL项目的一部分。