问题是如何以“快速”方式找出重要信息。所以计算很重要。它可以是实时的或在获取之后。我的想法是写一个带有英文单词列表的dictonary并计算一下...或者该怎么办?我需要讲授如何提取信息并压缩它们。但我不知道在哪里看。
抓取工具基于带有mysql的c ++,其中存储了链接。
我希望我的问题很清楚。 :d
顺便说一下,我的英语不好,但是德国有这样的董事会:P答案 0 :(得分:1)
信息检索科学(IR)是一个复杂的科学。
你看过任何标准文本了吗?像:
Christopher D. Manning,Prabhakar Raghavan和HinrichSchütze的信息检索简介(2008年7月7日) - http://www.amazon.com/Introduction-Information-Retrieval-Christopher-Manning/dp/0521865719/ref=sr_1_1?s=books&ie=UTF8&qid=1305573574&sr=1-1
信息检索:实施和评估搜索引擎StefanBüttcher,Charles L. A. Clarke和Gordon V. Cormack(2010年7月23日) - http://www.amazon.com/Information-Retrieval-Implementing-Evaluating-Engines/dp/0262026511/ref=sr_1_3?s=books&ie=UTF8&qid=1305573574&sr=1-3
在亚马逊上搜索“信息检索”以获取更多信息。
您还可以查看我对Design Question for Notification System的回答,其中概述了用于搜索的抓取网站的一般架构。