我想实现一个分析文本的应用程序。它应检查文本以查找我定义的信息,例如产品公告,关于某人或某事的评论,...... 然后只需要提取重要文本而不改变任何内容。
我应该怎样看待知识才能做到这一点?你能重新设计一种方法/算法吗?
感谢您的帮助 AVL
答案 0 :(得分:0)
取决于分析仪的智能程度。
最简单的方法是搜索关键字,可能是正则表达式。
人们还可以考虑使用像垃圾邮件过滤器这样的统计文本分析(例如http://bogofilter.org/或http://nasauber.de/opensource/b8/)来区分火腿和垃圾邮件。可以创建一个数据库,其中包含一个主题典型的“学习”文本,然后计算“垃圾邮件”,说明文本是关于每个数据库的主题的概率。这可能会很好,但编写代码的工作很多。