Javascript正则表达式与不同的输入

时间:2015-05-15 00:43:15

标签: javascript regex

我想从一段长文中过滤掉以下信息。我复制了哪个 然后粘贴到文本字段中,然后想要处理成表格。与

  • 名称
  • 地址
  • 状态

示例片段:(将名称和地址随机化的类型等)

Thuisprikindeling voor: Vrijdag 15 Mei 2015 DE SMART BON 22 afspraken
Pagina 1/4
Persoonlijke mededeling:
Algemene mededeling:
Prikpostgegevens: REEK-Eeklo extern, (-)
Telefoonnummer Fax Mobiel 0499/9999999 Email dummy.dummy@gmail.com
DUMMY FOO V Stationstreet 2 8000 New York F N - Sober BSN: 1655
THUIS Analyses: Werknr: PIN: 000000002038905
Opdrachtgever: Laboratorium Arts:
Mededeling:  Some comments // VERY DIFFICULT
FO DUMMY FOO V Butterstreet 6 8740 Melbourne F N - Sober BSN: 15898
THUIS Analyses: Werknr: AFD 3 PIN: 000000002035900
Opdrachtgever: Laboratorium Arts:
Mededeling: ZH BLA / BLA BLA - AFD 3 - SOCIAL BEER
JOHN FOOO V Waterstreet 1 9990 Rome F N - Sober BSN: 17878
THUIS / Analyses: Werknr: K111 PIN: 000000002037888
Opdrachtgever: Laboratorium Arts:
Mededeling: TRYOUT/FOO
FO SMOOTH M.FOO M Queen Elisabethstreet 19 9990 Paris F NN - Not Sober BSN: 14877

我想要摆脱的是:

DUMMY FOO Stationstreet 2 8000 New York Sober
FO DUMMY FOO Butterstreet 6 8740 Melbourne Sober
JOHN FOOO Waterstreet 1 9990 Rome Sober
FO SMOOTH M.FOO Queen Elisabethstreet 19 9990 Paris Not sober

我目前的策略是使用以下内容:

  • 在行的开头用大写字母过滤至少两个单词的所有行。和一个4位数的邮政编码。
  • 然后丢弃所有其他行,因为我只需要带有名称和地址的行
  • 然后我删除该行所需的所有信息
  • 删除姓名/地址/状态

我使用以下代码:

  //Regular expressions

    //Filter all lines which start with at least two UPPERCASE words following a space
    pattern = /^(([A-Z'.* ]{2,} ){2,}[A-Z]{1,})(?=.*BSN)/;
    postcode = /\d{4}/;
    searchSober= /(N - Sober)+/;
    searchNotSober= /(NN - Not sober)+/;

    adres = inputText.split('\n');


    for (var i = 0; i < adres.length; i++) {

        // If in one line And a postcode and which starts with at least
        // two UPPERCASE words following a space
        temp = adres[i]

        if (  pattern.test(temp) && postcode.test(temp)) {

            //Remove BSN in order to be able to use digits to sort out the postal code
            temp = temp.replace( /BSN.*/g, "");

            // Example: DUMMY FOO V Stationstreet 2 8000 New York F N - Sober

            //Selection of the name, always take first part of the array
            // DUMMY FOO
            var name = temp.match(/^([-A-Z'*.]{2,} ){1,}[-A-Z.]{2,}/)[0];

            //remove the name from the string
            temp = temp.replace(/^([-A-Z'*.]{2,} ){1,}[-A-Z.]{2,}/, "");
            // V Stationstreet 2 8000 New York F N - Sober

            //filter out gender
            //Using jquery trim for whitespace trimming
            // V
            var gender = $.trim(temp.match(/^( [A-Z'*.]{1} )/)[0]);

            //remove gender
            temp = temp.replace(/^( [A-Z'*.]{1} )/, "");

            // Stationstreet 2 8000 New York F N - Sober
            //looking for status

            var status = "unknown";
            if ( searchNotsober.test(temp) ) {
                status = "Not soberr";
            }
            else if ( searchSober.test(temp) ) {
                status = "Sober";


            }
            else {
                status = "unknown";
            }

            //Selection of the address /^.*[0-9]{4}.[\w-]{2,40}/
            //Stationstreet 2 8000 New York
            var address = $.trim(temp.match(/^.*[0-9]{4}.[\w-]{2,40}/gm));

            //assemble into person object.
            var person={name: name + "", address: address + "", gender: gender +"", status:status + "", location:[] , marker:[]};
            result.push(person);
        }
    }

我现在遇到的问题是:

  • 有时名字不是用CAPITALS写的
  • 有时候邮政编码没有添加,所以我的代码就会停止工作。
  • 有时候他们会在名字前加上一个*

一个更广泛的问题是,您可以采取什么策略来解决这类混乱的输入问题? 我应该为我在这些片段中看到的每一个错误制作案例吗?我觉得像 我不确切地知道每次跑步时我会从这段代码中得到什么 它有不同的输入。

1 个答案:

答案 0 :(得分:0)

以下是处理它的一般方法:

  1. 查找最有可能匹配的所有行。匹配&#34; Sober&#34;或任何不太可能错过比赛的东西,即使它会给你误报。

  2. 过滤掉误报,你必须随时更新和调整。确保您只过滤掉与之无关的内容。

  3. 严格过滤输入,不匹配的内容会被记录/报告以进行手动处理,现在匹配的内容符合已知的严格模式

  4. 现在应该更容易规范化和提取数据,因为在此阶段您可能的输入有限