我正在尝试构建一个刮刀来从网站中提取关键指标。其中一个指标是找到网站上产品的型号。我使用Outwit作为基础程序,但是当涉及到网站源代码中的一些例外时我现在陷入困境。
以下是源代码示例:
var zx_description = "Test Dress<br/><br/>Model: Nice01j<br/>
我想要提取的信息是:Nice01j
问题是,对于某些产品,单词Modell拼写为Model,并且实际模型名称/数字的末尾并不总是以行中断结束,但在某些情况下代码可能如下所示:
var zx_description = "Test Dress<br/><br/>Model: Nice01j";
我已成功在Modell编号之前创建RegEx,如下所示:
/var zx_description[\s\S]+?Modell:/
所以现在我想改变它,以便它也考虑到拼写可能只是一个“l”的模型。
另外,第二部分是创建一个RegEx来捕获实际模型名称之后的te信息,它应该是这样的:
IF: < br comes before "; then < br ELSE ";
这是否可以在正则表达式中声明,如果是这样,我该怎么做?
答案 0 :(得分:0)
根据您对[\ s \ S]的使用,我觉得您需要运行正则表达式教程。对于您的问题,请特别关注可选项和捕获组。