如何在非结构化文本中查找某些信息

时间:2013-11-27 18:46:15

标签: information-retrieval

我想实现一个分析文本的应用程序。它应检查文本以查找我定义的信息,例如产品公告,关于某人或某事的评论,...... 然后只需要提取重要文本而不改变任何内容。

我应该怎样看待知识才能做到这一点?你能重新设计一种方法/算法吗?

感谢您的帮助 AVL

1 个答案:

答案 0 :(得分:0)

取决于分析仪的智能程度。

最简单的方法是搜索关键字,可能是正则表达式。

人们还可以考虑使用像垃圾邮件过滤器这样的统计文本分析(例如http://bogofilter.org/http://nasauber.de/opensource/b8/)来区分火腿和垃圾邮件。可以创建一个数据库,其中包含一个主题典型的“学习”文本,然后计算“垃圾邮件”,说明文本是关于每个数据库的主题的概率。这可能会很好,但编写代码的工作很多。