Question

我在Web Scraping和python领域相对较新。我正在尝试从超市/在线杂货店抓取数据。我在清理已抓取的数据时遇到问题- 数据样本报废

塔塔盐精简版，低钠，1kg
Fortune Kachi Ghani芥末油1升（宠物瓶）
波旁威士忌（Bourbon Bliss），150克（买3送1）亚马逊品牌
Vedaka Popular Toor / Arhar Dal，1公斤
Eno瓶100克（常规）专业版
自然100％有机Masoor黑色全脂食品，500克
Excel液体洗涤剂1.05升

考虑到以上数据样本，我想将数量与产品名称分开。所需格式名称-塔塔盐精，低钠，数量-1kg 名称-Fortune Kachi Ghani纯芥末油
数量-1公升等等我试图用正则表达式

分隔它们

re.split("[,/._-]+", i)

，但部分成功。任何人都可以帮助我如何处理数据集。预先感谢。

Answer 1

您可以尝试对每个字符串实施以下解决方案：

text_content = "Tata Salt Lite, Low Sodium, 1kg"
quantity = re.search("(\d+\s?(kg|g|L))", text_content).group()
name = text_content.rsplit(quantity)[0].strip().rstrip(',')
description = "Name - {}, Quantity - {}".format(name, quantity)

Python Web Scraping：从非结构化数据中拆分数量

1 个答案: