Question

所以我写了一个Python脚本来抓取电子邮件中的数据。我使用以下代码按类查找项目：

HRDataUnClean = str(soup.findAll("h2", {"class": "numbers"}))

这非常好用，但是当我使用GMail时，有人抱怨安装python并使用google api，所以我想在google表格中编写一个执行类似任务的脚本。

我知道如何通过以下方式获取电子邮件正文：

var html = messages[0].getBody()

但是，它返回的字符串不是python对象beautifulsoup之前的html对象。我找到了Google脚本代码来搜索按元素类别SearchByClass

但是XmlService.parse（html）似乎需要html对象。无论如何，我可以将电子邮件正文从字符串转换为html对象吗？

Answer 1

没有像GAS（2019）中的HTML表示对象那样具有与浏览器控制台或JQUERY对象类似的HTML表示形式。

不建议使用XML服务，但它仍然可以使用，并且它以字符串作为输入。

var pageHtmlString = UrlFetchApp.fetch(webAddressUrl);
var doc = Xml.parse(pageHtmlString, true);
var bodyHtml = doc.html.body.toXmlString();
doc = XmlService.parse(bodyHtml);
var root = doc.getRootElement();

注意：如果旧的Xml.parse已从Google脚本中完全删除，则此解决方案可能无法使用。

Google脚本-按类别搜索HTML

1 个答案: