应用错误收集

关于“AUTOMATIC TEXT SUMMARIZER（基于语言）”

时间：2008-12-31 06:56:57

标签： text nlp linguistics summarization

我将“自动文本摘要（语言学方法）”作为我的最后一年项目。我收集了足够多的研究论文并完成了它们。我仍然不太清楚'如何去做'的事情。基本上我发现“AUTOMATIC TEXT SUMMARIZER（基于统计）”并发现与我的项目相比它更容易。我的项目指南告诉我不要选择这个（基于统计）并选择基于语言的。

任何曾经研究过或甚至听过这类项目的人都会知道，总结任何文件只不过是对每一句话进行评分（通过一些涉及某些特定算法的方法），然后选择得分高于阈值分数的句子。现在，该项目最困难的部分是选择适当的评分算法，然后再实施。

我有适度的编程技巧，并希望在JAVA中编码（因为我会得到很多API，导致较少的开销）。现在我想知道，对于我的项目，我应该采用什么方法和算法。还有如何实现它们。

5 个答案:

答案 0 :(得分：5)

Using Lexical Chains for Text Summarization (Microsoft Research)

对不同算法的分析：DasMartins.2007

文档中最重要的部分：

•Nenkova（2005）分析说没有系统   可以用统计数据击败基线   意义
  •引人注目的结果！

请注意 liguistic 方法有两种不同的细微差别：

语言评分系统（此处全部明确）
语言生成（重写句子以构建摘要）

答案 1 :(得分：2)

自动摘要是一个非常复杂的领域 - 尝试将您的Java技能放在首位，以及您对使用机器学习的统计NLP的理解。然后，您可以通过构建实质内容来完成工作。评估您的解决方案并确保您具体定义了测量变量以及您的评估方式。否则，您的项目注定要失败。这通常被认为是最后一年本科生的高风险项目，因为他们往往无法正确理解原则，然后以不正确的方式实施，然后他们的评估措施都是不明确的，并且没有反映出来他们自己的工作清楚。我的建议是将重点放在一个领域而不是许多摘要中，因为您可以拥有单个和多个文档摘要。您使项目变得越多样化，您获得好成绩的可能性就越小。保持专注和深入。评估其他人的工作，然后评估你决定采取的过程和结果。

读物： -Jurafsky关于NLP的书有一个关于摘要和QA的后面部分。 -inderjeet mani的文本摘要非常好

了解术语加权，基于质心的摘要，对数似然比，一致性关系，句子简化，最大边际相关性，冗余以及实际上重点摘要的内容。

您可以使用有监督或无监督的方法以及混合方式进行尝试。语言是一个更安全的选择，这就是为什么你被建议采取这种方法。尝试在语言上尝试，然后建立统计信息以杂交您的解决方案。使用它作为练习来学习算法的理论和实际意义，并建立在你的知识基础之上。毫无疑问，你必须向评审小组解释和捍卫你的项目。

答案 2 :(得分：0)

如果你真的读过那些研究论文和研究书籍，你可能知道已知的东西。现在，您可以在Java应用程序中实现这些研究论文和研究书籍的知识。或者你可以通过做一些创新/发明来扩展人类的知识。如果你确实扩展了人类知识，你就成了一名真正的科学家。

答案 3 :(得分：0)

请在以下两个主要方面更具体地提出您的问题：

项目定义：项目的目标是什么？输入单元是单个文件吗？文件清单？你打算让你的程序使用机器学习吗？什么是输出？你将如何衡量成功？
您的背景知识：您打算使用语言而不是统计方法。你有解析自然语言的背景吗？在语义表示？我认为其中一些问题很难。我问他们是因为我花了太多时间在学习过程中回答类似的问题。一旦你解决了这些问题，我可能会给你一些指示。 Mani's "Automatic Summarization"看起来是一个好的开始，至少是介绍性的章节。

答案 4 :(得分：0)

几年前，谢菲尔德大学在automatic email summarising做了一些工作，作为欧盟FASiL项目的一部分。