我创建了一个抓取网站的应用。 here - http://crawler.javaignite.com/
我获得了所有相对网址,并且包含meta关键字和描述,包括标题。
但现在我想将这些数据存储在一些表格中我不知道搜索引擎如何存储数据和搜索,所以帮助我为此创建基本架构。
答案 0 :(得分:1)
我试图创建但需要对此进行更多改进。基本上我只用了三张桌子
table:website_mst
website_id
website_url [root]
website_visitperiod // no of days to revisit
table:crawled_history
包含多个数据,即抓取的次数
crawled_id PK
website_id FK [ref. website_mst]
crawled_url
crawled_datetime
表格:crawled_page
仅包含元和描述
crawled_id FK [ref. crawled_history]
meta_title
meta_keyword
meta_description
total_viewed
updated_on