在Google Apps脚本中,如何解析格式错误且无法验证的HTML?

时间:2016-04-08 04:13:20

标签: html parsing google-apps-script xmlservice

使用Google Apps脚本,我需要从一个结构非常糟糕的HTML文档的网站中抓取一些数据,因此XmlService.parse()无法解析它。

这里"文件"看起来,我已经剥离了许多线条,但保留了结构。

<html>
<head>
    <link href="css/bootstrap.min.css" rel="stylesheet">
    <title> Funny Site </title>
</head>
<body>

<!DOCTYPE html>
<html>
<title> Funny Site</title>
<head>
<meta charset="utf-8">

    </head>
    <body>
    <div class="mainhead">
        <div class="leftHead">
        </div>  

<script>
    $(document).ready(function(){
    //$( ".overlay" ).show();
    });
</script>
<div class="contain">

    <div class="maine"> 
        </div>

    <div class="maine2">

<div class="footer1">           

<div class="footer2"> 
    <div class="data">
        <div class="dc">
            <div class="smalltxt">Field1</div>
            <div class="largetxt">value1</div>
        </div>
        <div class="dc">
            <div class="smalltxt">Field2</div>
            <div class="largetxt">value2</div>
        </div>
        <div class="dc">
            <div class="smalltxt">Field3</div>
            <div class="largetxt adjFont" id ="someId">value3</div>
        </div>
        <div class="dc" >
            <div class="smalltxt">Field4</div>
            <div class="largetxt adjFont">value4</div>
        </div>
        <div class="dc" style="border:none;">
            <div class="smalltxt">Field5</div>
            <div class="largetxt">value5</div>
        </div>
    </div> 
</div>       
</body>
</html>    

我想要抓取的数据位于div,其中包含datavalue1value5

你怎么能至少抓住data班?我唯一能想到的就是应用正则表达式,但是有更好的方法吗?

0 个答案:

没有答案