Google脚本-按类别搜索HTML

时间:2018-06-28 16:49:13

标签: google-apps-script google-sheets

所以我写了一个Python脚本来抓取电子邮件中的数据。我使用以下代码按类查找项目:

HRDataUnClean = str(soup.findAll("h2", {"class": "numbers"}))

这非常好用,但是当我使用GMail时,有人抱怨安装python并使用google api,所以我想在google表格中编写一个执行类似任务的脚本。

我知道如何通过以下方式获取电子邮件正文:

var html = messages[0].getBody()

但是,它返回的字符串不是python对象beautifulsoup之前的html对象。我找到了Google脚本代码来搜索按元素类别SearchByClass

但是XmlService.parse(html)似乎需要html对象。无论如何,我可以将电子邮件正文从字符串转换为html对象吗?

1 个答案:

答案 0 :(得分:1)

没有像GAS(2019)中的HTML表示对象那样具有与浏览器控制台或JQUERY对象类似的HTML表示形式。

不建议使用XML服务,但它仍然可以使用,并且它以字符串作为输入。

var pageHtmlString = UrlFetchApp.fetch(webAddressUrl);
var doc = Xml.parse(pageHtmlString, true);
var bodyHtml = doc.html.body.toXmlString();
doc = XmlService.parse(bodyHtml);
var root = doc.getRootElement();

注意:如果旧的Xml.parse已从Google脚本中完全删除,则此解决方案可能无法使用。