如何从纯文本中提取html标记

时间:2013-07-16 21:56:06

标签: javascript jquery ckeditor

我从CKEditor获得的纯文本中有大量的html数据。它包含表结构和一堆html标记。

我想知道是否有办法只提取表结构和td数据。

普通文本可能类似

first table....bunch more texts here...

<table>
   <tr><td>  data1  </td></tr>
   <tr><td>  data2  </td></tr>
   <tr><td>  data3  </td></tr>
</table>

end of table. test data here...

<table>
   <tr><td>  data4  </td></tr>
   <tr><td>  data5  </td></tr>
   <tr><td>  data6  </td></tr>
</table>

end of second table and bunch more texts....

我试过了

//tableData contains everything the user type in CKEditor.
var table = tableData.getElementsByTagName ('table');

但我刚刚意识到这些文字在dom中没有。它们只是我从CKEditor中提取的纯文本。

如何提取这些table数据?

感谢您的帮助!

2 个答案:

答案 0 :(得分:2)

我假设您有一个tableData字符串,您可以从中提取DOM节点以便能够处理它们。

为了避免解析,您可以将此字符串插入临时DOM元素。

var temp = document.createElement( 'div' );
div.innerHTML = tableData;

// Retrieve all tables.
var tables = div.getElementsByTagName( 'table' );

答案 1 :(得分:0)

您需要类似下面的内容,将所有表拉入数组,然后迭代它们。这是一个小提琴,它也显示了这一点http://jsfiddle.net/M5nMY/。我假设tabledata是包含表的DOM元素的id。

var tableData = document.getElementById('tabledata');
var tables = tableData.getElementsByTagName('table');
var data = new Array();
for(var k = 0; k < tables.length; k++){
   var table = tables[k];
   for(var i=0; i< table.rows.length; i++){
      var row = table.rows[i].cells;
      for(var j=0; j < row.length; j++){
        data.push(row[j].innerHTML);
      }
   }
}

请注意,在这种情况下,我已将所有表中的所有数据一次推送到一行中。