解析HTML结构,JS工具可用

时间:2013-07-06 19:38:45

标签: javascript html node.js html-parsing

我必须从网站的HTML表格中获取信息。我想从Node.ja服务器向该网站发出HTML请求并解析HTML表。除了正则表达式解析表格单元格中的数据之外,JS是否有任何库或技术?

抱歉,我是编程新手。

4 个答案:

答案 0 :(得分:1)

看看优秀的Cheerio图书馆:

https://github.com/MatthewMueller/cheerio

示例在Git上。

答案 1 :(得分:0)

var doc = document.implementation.createDocument(null, your_downloaded_html_page_as_string, null);

您可以使用常规DOM函数(如getElementByTagName,firstChild,..等)从您下载的HTML页面获取实际数据。

有关更多方法,请参阅Parse a HTML String with JS

答案 2 :(得分:0)

jsdom是这个

的一个很好的模块
// Count all of the links from the Node.js build page
var jsdom = require("jsdom");

jsdom.env(
  "http://nodejs.org/dist/",
  ["http://code.jquery.com/jquery.js"],
  function (errors, window) {
    console.log("there have been", window.$("a").length, "nodejs releases!");
  }
);

答案 3 :(得分:-1)

我会使用JQuery。您可以像这样迭代所有表数据:(这将警告每个表数据中的html)

$('td').each( function () { alert( $(this).html() } );

或特定表:

$('#specific_table_id.td').each( function () { alert( $(this).html() } );