所以我写了一个Python脚本来抓取电子邮件中的数据。我使用以下代码按类查找项目:
HRDataUnClean = str(soup.findAll("h2", {"class": "numbers"}))
这非常好用,但是当我使用GMail时,有人抱怨安装python并使用google api,所以我想在google表格中编写一个执行类似任务的脚本。
我知道如何通过以下方式获取电子邮件正文:
var html = messages[0].getBody()
但是,它返回的字符串不是python对象beautifulsoup之前的html对象。我找到了Google脚本代码来搜索按元素类别SearchByClass
但是XmlService.parse(html)似乎需要html对象。无论如何,我可以将电子邮件正文从字符串转换为html对象吗?
答案 0 :(得分:1)
没有像GAS(2019)中的HTML表示对象那样具有与浏览器控制台或JQUERY对象类似的HTML表示形式。
不建议使用XML服务,但它仍然可以使用,并且它以字符串作为输入。
var pageHtmlString = UrlFetchApp.fetch(webAddressUrl);
var doc = Xml.parse(pageHtmlString, true);
var bodyHtml = doc.html.body.toXmlString();
doc = XmlService.parse(bodyHtml);
var root = doc.getRootElement();
注意:如果旧的Xml.parse已从Google脚本中完全删除,则此解决方案可能无法使用。