我正在使用node.js和puppeteer从txt文件中获取一些数据。该文件的主体具有标签,我可以获取数据...但是在HEADER中,我有这样的东西:
<ABC-HEADER>0123
<DATETIME>201811
NUMBER: 0123
TYPE: ABC
DATE: 20181114
SENDER:
COMPANY DATA:
NAME: Company
STATE: WI
BUSINESS ADDRESS:
STREET 1: PO BOX 123
STREET 2: V123
CITY: VALLEY 123
STATE: WI
ZIP: 123
BUSINESS PHONE: 123
OTHER VALUES:
OTHER NUMBER: 068-16975
FILM NUMBER: 13362274
MAIL ADDRESS:
STREET 1: PO BOX 456
STREET 2: V456
CITY: VALLEY 456
STATE: WI
ZIP: 456
</ABC-HEADER>
我该如何获取这些值?!
const records = await page.evaluate( () =>
{
const page = document.createElement( 'html' );
const page_content = document.body.textContent;
page.innerHTML = page_content;
...
});
答案 0 :(得分:0)
如果您已经在字符串中包含该数据,我建议您不使用puppeteer解析数据,因为该数据不是有效的HTML(甚至不是有效的XML)。您应该改用正则表达式(也许除了一些字符串拆分之外)。
示例
OTHER NUMBER
这使用match
函数将字符串的一部分与给定的正则表达式匹配。这些表达式匹配任何特定的字符串(例如+
,后跟至少一个空格(\S
),然后是除空白({{1}})之外的单个字符,然后是任何数据。 / p>