我想以编程方式解析html内容中的microdata schema(就像Google Structured Data Test Tool做的那样)
例如,如果给定包含JobPosting和Website架构的html,该工具将检测并返回包含相关属性信息的2个对象JobPosting
和Website
。
最佳方法是什么?我应该创建XSD
架构来验证Html内容还是只使用XPath
进行正常的Html处理?有没有好的图书馆呢?
答案 0 :(得分:2)
我已经创建了一个用于完成此任务的库。该库基于HtmlAgilityPack
库。代码已放在Github上:https://github.com/minhnguyenlinknode/MicroSchemaParser
用法:
var microSchemaParser = new MicroSchemaParser(yourHtmlString);
// Detect all supported schemas
List<ISchema> allSupportedSchemas = microSchemaParser.Parse();
// Find a specific schema
var schema = microSchemaParser.Find<ItemListSchema>();
// Check the schema validation
var validateResult = itemListSchema.Validate();