我正在使用Yelp数据集,这是一个pandas数据帧。每行包含有关业务的信息,每列引用特定信息,如消费者评级,类别,属性等。我特别感兴趣的是从数据框的属性列中提取信息。每行中的属性字段包含多个元素,长度不同。我正在附上一张图片来说明这一点。 Image of attributes column
我想从属性单元格中提取此信息:'RestaurantsPriceRange2:1'。请注意,'RestaurantsPriceRange2'的值在每行中也有所不同,可能是1,2,3或4.我尝试将每一行收集到一个列表中,但列表的长度因每行而异。
有人可以建议如何从属性列中选择我想要的信息吗?
答案 0 :(得分:0)
看起来属性也用逗号分隔。您可以使用逗号分隔每个属性,而不是在大括号内(请参阅How to split by commas that are not within parentheses?以获取可用作分隔符的RegEx,并将括号替换为大括号),并读取属性并将其转换为部分属性。数据帧也是如此。这样,您就可以直接访问Restaurant Price Range
。