为什么这些RegExes不会刮掉整个单词/字符串?

时间:2015-10-04 15:36:36

标签: regex web-scraping

我正在尝试使用Google Regex Scraper扩展程序来抓取Yelp中的一些项目!网站。尝试使用此正则表达式匹配两个美国街道地址而不解析。 对于之前的混淆感到抱歉

  

6805 Vista Del Mar Ln

     

1320 E 200 S

\<span\sitemprop\=\"streetAddress\"\>\"?(\d{1,5}\s[NEWS]?\s?\w*\s\w*\s?\w*?\s?\w*?\"?)\<?b?r?\>?\"?\w+?\s?\w+?\"?\<\/span\>

帮助任何人?

1 个答案:

答案 0 :(得分:0)

你的问题&#34;缺少很多信息,但是从我收集到的内容中,您想要阅读<VirtualHost *:80> DocumentRoot /var/www/apparels/ Alias /cosmetics /var/www/apparels/ <Directory "/var/www/apparels"> Options Indexes FollowSymLinks MultiViews AllowOverride All Require all granted </Directory> </VirtualHost> <VirtualHost *:80> DocumentRoot /var/www/cosmetics/ Alias /cosmetics /var/www/cosmetics/ <Directory "/var/www/cosmetics"> Options Indexes FollowSymLinks MultiViews AllowOverride All Require all granted </Directory> </VirtualHost> 标记内的地址,并在其周围添加可选的<span>,然后是可选的",然后是您的感兴趣...你的RE似乎过于复杂,除非涉及一些语法检查(在问题中也未提及)。 怎么样:

<br>

它保留了您唯一明显的语法检查,即存在的街道号码,1到5位数,但除此之外的所有内容都可以获取<span\b.*?>"?(\d{1,5}.*?)"?(?:<br>|<\/span>) <br>,不包括周围的引号。你对北方,东方的考验......并没有做任何事情。所有其他&#34;切断&#34; RE超出了我的理解。

但是,正如评论所说,使用HTML解析器来提取您想要解释的文本。

无论如何,试一试;)

此致