如何从HTML网页获取某些信息?

时间:2014-12-12 05:53:58

标签: c# html html-parsing

我想从网页上提取统计数据,但我完全不知道该怎么做。 例如,在此网页https://www.google.ca/上,我想获取按钮的文字"我感觉幸运"来自HTML代码,或者如果可能的话更简单的方法。我有代码,但它与我的问题并没有很好的联系。如果你能得到帮助,那就太好了。

编辑:我正在使用C#Windows窗体应用程序

4 个答案:

答案 0 :(得分:1)

此链接可能会帮助您

http://www.dotnetperls.com/scraping-html

如果你正在使用java

http://htmlcleaner.sourceforge.net/javause.php

祝你好运

答案 1 :(得分:0)

<html> 
<body>
  <form action="get_btn_val.php" method="GET">
     <input type="submit" name="btn_click" value="I'm Feeling Lucky" >
  </form> 
</body>
</html>

//在get_btn_val.php页面

<?php
   echo $_GET['btn_click'] ;
?>

答案 2 :(得分:0)

我不了解C#,但你需要一个html解析库。 Python的BeautifulSoup非常强大。我试试看。

答案 3 :(得分:0)

我必须说你的问题不清楚。很难给出具体答案,所以我只能尽力给你一些起点。从标签中,我猜你正在寻找从网站解析HTML文件的方法吗?

首先,当您在此问题中标记C#时,我想您可能想先在C#中找到解决方案?您可以查看Html Agility Pack

其他语言也有类似的图书馆。

PHP:PHP Simple HTML DOM Parser

Python:official HTML parser

Java:jsoup

或者,最简单的方法是使用javascript(或jquery或其他javascript库)来解析HTML。但请注意,如果HTML不是您自己的计算机的主机,则由于同源策略,您无法使用javascript来解析该页面的HTML。您需要以其他方式运行javascript,例如在开发人员工具控制台中运行,在chrome-extension脚本中运行或在服务器端node.js中运行。