Node.js puppeteer-从没有标签的txt文件中获取数据

时间:2019-04-30 19:00:40

标签: javascript node.js puppeteer

我正在使用node.js和puppeteer从txt文件中获取一些数据。该文件的主体具有标签,我可以获取数据...但是在HEADER中,我有这样的东西:

<ABC-HEADER>0123
<DATETIME>201811
NUMBER:     0123
TYPE:   ABC
DATE:   20181114

SENDER:

    COMPANY DATA:   
        NAME:           Company
        STATE:          WI

    BUSINESS ADDRESS:   
        STREET 1:       PO BOX 123
        STREET 2:       V123
        CITY:           VALLEY 123
        STATE:          WI
        ZIP:            123
        BUSINESS PHONE:     123

    OTHER VALUES:
        OTHER NUMBER:   068-16975
        FILM NUMBER:    13362274

    MAIL ADDRESS:   
        STREET 1:       PO BOX 456
        STREET 2:       V456
        CITY:           VALLEY 456
        STATE:          WI
        ZIP:            456
</ABC-HEADER>

我该如何获取这些值?!

const records = await page.evaluate( () =>
  {
      const page = document.createElement( 'html' );
      const page_content = document.body.textContent;

      page.innerHTML = page_content;

      ...

  });

1 个答案:

答案 0 :(得分:0)

如果您已经在字符串中包含该数据,我建议您使用puppeteer解析数据,因为该数据不是有效的HTML(甚至不是有效的XML)。您应该改用正则表达式(也许除了一些字符串拆分之外)。

示例

OTHER NUMBER

这使用match函数将字符串的一部分与给定的正则表达式匹配。这些表达式匹配任何特定的字符串(例如+,后跟至少一个空格(\S),然后是除空白({{1}})之外的单个字符,然后是任何数据。 / p>