网页摘要,数据关键字

时间:2015-10-19 23:30:47

标签: search web-scraping web-crawler bots

我想通过在网站上查找某些特定数据来抓取该网站。 web scrapper是否支持关键字属性,例如:我想提取包含单词Java,PHP developper的所有数据。是否有一些网络抓取工具可以支持这些属性?

1 个答案:

答案 0 :(得分:1)

基本上没有特殊的关键字抓取工具。但你可能会模仿他们。

<案例1

您认为html head部分meta包含关键字:

<html> 
   <head>
      <meta name="keywords" content="java, php, python, linux">
   <head>
<html>    

1。不是整个网页,而是它的一部分 - 前1000个字符。

  1. 检查此部分是否有关键字。例如,使用regex/java|php|linux|python/gi
  2. 如果找到,请标记/保存此网址,并在将来使用它进行刮擦。
  3. <案例2

    网页上没有关注关键字的元数据。 :-( 只需使用正则表达式(参见上文)检索整个页面文本中的关键字状态检查,即可进行常规页面内容检索。