标签: web-scraping web-crawler search-engine semantic-web schema.org
我正在开发一个基于schema.org的语义Web搜索引擎。我的问题是弄清楚如何有效地索引哪些网站使用特定的架构 - 例如FoodEstablishment。
目标是识别/开发域到模式的映射,以便特定模式使用的描述(例如 Usage: Between 1000 and 10,000 domains)可以完全显式。
Usage: Between 1000 and 10,000 domains
编辑#1
我recommended考虑构建在Web Data Commons架构之上,该架构目前用于识别schema.org类的子集。这看起来是一个很好的起点...