Question

我想从一段长文中过滤掉以下信息。我复制了哪个然后粘贴到文本字段中，然后想要处理成表格。与

名称
地址
状态

示例片段:(将名称和地址随机化的类型等）

Thuisprikindeling voor: Vrijdag 15 Mei 2015 DE SMART BON 22 afspraken
Pagina 1/4
Persoonlijke mededeling:
Algemene mededeling:
Prikpostgegevens: REEK-Eeklo extern, (-)
Telefoonnummer Fax Mobiel 0499/9999999 Email dummy.dummy@gmail.com
DUMMY FOO V Stationstreet 2 8000 New York F N - Sober BSN: 1655
THUIS Analyses: Werknr: PIN: 000000002038905
Opdrachtgever: Laboratorium Arts:
Mededeling:  Some comments // VERY DIFFICULT
FO DUMMY FOO V Butterstreet 6 8740 Melbourne F N - Sober BSN: 15898
THUIS Analyses: Werknr: AFD 3 PIN: 000000002035900
Opdrachtgever: Laboratorium Arts:
Mededeling: ZH BLA / BLA BLA - AFD 3 - SOCIAL BEER
JOHN FOOO V Waterstreet 1 9990 Rome F N - Sober BSN: 17878
THUIS / Analyses: Werknr: K111 PIN: 000000002037888
Opdrachtgever: Laboratorium Arts:
Mededeling: TRYOUT/FOO
FO SMOOTH M.FOO M Queen Elisabethstreet 19 9990 Paris F NN - Not Sober BSN: 14877

我想要摆脱的是：

DUMMY FOO Stationstreet 2 8000 New York Sober
FO DUMMY FOO Butterstreet 6 8740 Melbourne Sober
JOHN FOOO Waterstreet 1 9990 Rome Sober
FO SMOOTH M.FOO Queen Elisabethstreet 19 9990 Paris Not sober

我目前的策略是使用以下内容：

在行的开头用大写字母过滤至少两个单词的所有行。和一个4位数的邮政编码。
然后丢弃所有其他行，因为我只需要带有名称和地址的行
然后我删除该行所需的所有信息
删除姓名/地址/状态

我使用以下代码：

  //Regular expressions

    //Filter all lines which start with at least two UPPERCASE words following a space
    pattern = /^(([A-Z'.* ]{2,} ){2,}[A-Z]{1,})(?=.*BSN)/;
    postcode = /\d{4}/;
    searchSober= /(N - Sober)+/;
    searchNotSober= /(NN - Not sober)+/;

    adres = inputText.split('\n');


    for (var i = 0; i < adres.length; i++) {

        // If in one line And a postcode and which starts with at least
        // two UPPERCASE words following a space
        temp = adres[i]

        if (  pattern.test(temp) && postcode.test(temp)) {

            //Remove BSN in order to be able to use digits to sort out the postal code
            temp = temp.replace( /BSN.*/g, "");

            // Example: DUMMY FOO V Stationstreet 2 8000 New York F N - Sober

            //Selection of the name, always take first part of the array
            // DUMMY FOO
            var name = temp.match(/^([-A-Z'*.]{2,} ){1,}[-A-Z.]{2,}/)[0];

            //remove the name from the string
            temp = temp.replace(/^([-A-Z'*.]{2,} ){1,}[-A-Z.]{2,}/, "");
            // V Stationstreet 2 8000 New York F N - Sober

            //filter out gender
            //Using jquery trim for whitespace trimming
            // V
            var gender = $.trim(temp.match(/^( [A-Z'*.]{1} )/)[0]);

            //remove gender
            temp = temp.replace(/^( [A-Z'*.]{1} )/, "");

            // Stationstreet 2 8000 New York F N - Sober
            //looking for status

            var status = "unknown";
            if ( searchNotsober.test(temp) ) {
                status = "Not soberr";
            }
            else if ( searchSober.test(temp) ) {
                status = "Sober";


            }
            else {
                status = "unknown";
            }

            //Selection of the address /^.*[0-9]{4}.[\w-]{2,40}/
            //Stationstreet 2 8000 New York
            var address = $.trim(temp.match(/^.*[0-9]{4}.[\w-]{2,40}/gm));

            //assemble into person object.
            var person={name: name + "", address: address + "", gender: gender +"", status:status + "", location:[] , marker:[]};
            result.push(person);
        }
    }

我现在遇到的问题是：

有时名字不是用CAPITALS写的
有时候邮政编码没有添加，所以我的代码就会停止工作。
有时候他们会在名字前加上一个*

一个更广泛的问题是，您可以采取什么策略来解决这类混乱的输入问题？我应该为我在这些片段中看到的每一个错误制作案例吗？我觉得像我不确切地知道每次跑步时我会从这段代码中得到什么它有不同的输入。

Answer 1

以下是处理它的一般方法：

查找最有可能匹配的所有行。匹配＆＃34; Sober＆＃34;或任何不太可能错过比赛的东西，即使它会给你误报。
过滤掉误报，你必须随时更新和调整。确保您只过滤掉与之无关的内容。
严格过滤输入，不匹配的内容会被记录/报告以进行手动处理，现在匹配的内容符合已知的严格模式
现在应该更容易规范化和提取数据，因为在此阶段您可能的输入有限

Javascript正则表达式与不同的输入

1 个答案: