str_extract无法识别俄语模式

时间:2019-04-13 10:14:00

标签: r stringr

我有此数据:

  library(tidyverse)
  t1 %>% head(5)
                           shop_name
1                Москва ТРК "Атриум"
2      !Якутск Орджоникидзе, 56 фран
3                     Омск ТЦ "Мега"
4               Самара ТЦ "ПаркХаус"
5 Москва ТЦ "Новый век" (Новокосино)

我想提取某些模式并将其添加到新列中。

t1 %>% 
mutate(location = str_extract(shop_name,"TPK|ТЦ|ТК|ТРЦ|МТРЦ|ТЦ"))

但是,我只是得到了NA。知道原因是什么吗?

用于其他操作,例如提取引号之间的模式,效果很好。

t1 %>%
mutate(name = str_extract(shop_name, '"\\D+"|"\\d+"')) 

这里是dput()

structure(list(shop_name = c("Москва ТРК \"Атриум\"", "!Якутск Орджоникидзе, 56 фран", 
"Омск ТЦ \"Мега\"", "Самара ТЦ \"ПаркХаус\"", "Москва ТЦ \"Новый век\" (Новокосино)", 
"Тюмень ТЦ \"Гудвин\"", "Москва ТЦ \"Семеновский\"", "Казань ТЦ \"ПаркХаус\" II", 
"Интернет-магазин ЧС", "СПб ТК \"Сенная\"", "Ярославль ТЦ \"Альтаир\"", 
"СПб ТК \"Невский Центр\"", "Уфа ТК \"Центральный\"", "Красноярск ТЦ \"Взлетка Плаза\"", 
"Балашиха ТРК \"Октябрь-Киномир\"", "Химки ТЦ \"Мега\"", "Чехов ТРЦ \"Карнавал\"", 
"Якутск ТЦ \"Центральный\"", "Вологда ТРЦ \"Мармелад\"", "Воронеж (Плехановская, 13)", 
"Москва МТРЦ \"Афи Молл\"", "Воронеж ТРЦ \"Максимир\"", "Москва ТЦ \"МЕГА Теплый Стан\" II", 
"Якутск Орджоникидзе, 56", "РостовНаДону ТЦ \"Мега\"", "Москва ТЦ \"Перловский\"", 
"Москва ТЦ \"МЕГА Белая Дача II\"", "Сургут ТРЦ \"Сити Молл\"", 
"Тюмень ТЦ \"Зеленый Берег\"", "Курск ТЦ \"Пушкинский\"", "Уфа ТЦ \"Семья\" 2", 
"Красноярск ТЦ \"Июнь\"", "Москва ТЦ \"Ареал\" (Беляево)", "Н.Новгород ТРЦ \"Фантастика\"", 
"Калуга ТРЦ \"XXI век\"", "Волжский ТЦ \"Волга Молл\"", "Москва ТК \"Буденовский\" (пав.К7)", 
"Новосибирск ТЦ \"Мега\"", "Коломна ТЦ \"Рио\"", "Жуковский ул. Чкалова 39м?", 
"Сергиев Посад ТЦ \"7Я\"", "Москва Магазин С21", "Адыгея ТЦ \"Мега\"", 
"РостовНаДону ТРК \"Мегацентр Горизонт\"", "Мытищи ТРК \"XL-3\"", 
"Москва ТК \"Буденовский\" (пав.А2)", "Москва ТЦ \"Серебряный Дом\"", 
"Тюмень ТРЦ \"Кристалл\"", "Самара ТЦ \"Мелодия\"", "Томск ТРЦ \"Изумрудный Город\"", 
"!Якутск ТЦ \"Центральный\" фран", "Выездная Торговля", "Воронеж ТРЦ Сити-Парк \"Град\"", 
"Жуковский ул. Чкалова 39м<U+00B2>", "Н.Новгород ТРЦ \"РИО\"", 
"Новосибирск ТРЦ \"Галерея Новосибирск\"", "Казань ТЦ \"Бехетле\"", 
"РостовНаДону ТРК \"Мегацентр Горизонт\" Островной", "Цифровой склад 1С-Онлайн", 
"Москва \"Распродажа\"")), class = "data.frame", row.names = c(NA, 
-60L))

0 个答案:

没有答案