如何使用gsub来修复大小写定义的多个空格和虚线?

时间:2017-11-30 03:57:52

标签: r gsub stringr

我使用viewController将一些pdf文档转换为txt。这是输出的一部分(它不是那么糟糕)

let spinnerVC = SpinnerViewController()
let navVC = UINavigationController(rootViewController:spinnerVC)
navVC.modalPresentationStyle = .overCurrentContext
navVC.modalTransitionStyle = .crossDissolve
self.present(navVC, animated: true, completion: nil)

所以我这样做是为了清理它并将其转换为格式化的tsv:

pdftools

,输出为:

REPÚBLICA DE CHILE         PADRON ELECTORAL AUDITADO       ELECCIONES PRESIDENCIAL, PARLAMENTARIAS y de CONSEJEROS REGIONALES 2017             REGISTROS:       2.421
SERVICIO ELECTORAL         REGIÓN     : ARICA Y PARINACOTA                                    COMUNA: GENERAL LAGOS                                    PÁGINA 1 de 38
                           PROVINCIA  : PARINACOTA
NOMBRE                                                     C.IDENTIDAD SEXO    DOMICILIO ELECTORAL                             CIRCUNSCRIPCIÓN                   MESA
AGUILERA SIMPERTIGUE JUDITH ALEJANDRA                         13.638.826-6 MUJ PUEBLO DE TACORA S N VISVIRI                    GENERAL LAGOS                        4M
AGUILERA ZENTENO PATRICIA ALEJANDRA                           16.223.938-4 MUJ PUEBLO DE GUACOLLO S N CERCANO A                GENERAL LAGOS                        5M
AGUIRRE CHOQUE MARCOS JULIO                                   15.000.385-7 VAR CIRCUNSCRIPCION
                                                                               CALLE  TORREALBA DE  VISVIRI
                                                                                                 CASA  N° 4 PUEBLO DE VISVIRI  GENERAL LAGOS                        7V

我已阅读过一些帖子,我不确定如何实施:

  1. test = read_lines("file.txt") test2 = test[!grepl("REP\u00daBLICA",test)] test2 = test2[!grepl("SERVICIO",test2)] test2 = test2[!grepl("NOMBRE",test2)] test2 = test2[!grepl("PROVINCIA",test2)] test2 = gsub("\\.", "", test2) test2 = gsub("(?<=[\\s])\\s*|^\\s+|\\s+$", "", test2, perl=TRUE) 之类的东西,这是替换多个空格,后面跟一个数字,后跟一个数字
  2. 如何将虚线移动到上一行的末尾,例如上面示例中以多个空格开头的第8行。
  3. 修复(1)和(2)会返回:

    ABRIGO PIZARRO PATRICIO ESTEBAN 16024716-9 VAR PUEB ALCERRECA GENERAL LAGOS 5V
    ABURTO VELASCO ESTHER MARISOL 13005517-6 MUJ VILLA INDUSTRIAL GENERAL LAGOS 2M
    ACEVEDO MONTT SEBASTIAN ANDRES 17829470-9 VAR CALLE RAFAEL TORREALBA N° 3 PUEBLO DE VISVIRI GENERAL LAGOS 3V
    ACHILLO BLAS ADOLFO ARTURO 13008044-8 VAR VISURI GENERAL LAGOS 7V
    

0 个答案:

没有答案