我在Web Scraping和python领域相对较新。我正在尝试从超市/在线杂货店抓取数据。 我在清理已抓取的数据时遇到问题- 数据样本报废
考虑到以上数据样本,我想将数量与产品名称分开。
所需格式
名称-塔塔盐精,低钠,
数量-1kg
名称-Fortune Kachi Ghani纯芥末油
数量-1公升等等
我试图用正则表达式
re.split("[,/._-]+", i)
,但部分成功。 任何人都可以帮助我如何处理数据集。预先感谢。
答案 0 :(得分:1)
您可以尝试对每个字符串实施以下解决方案:
text_content = "Tata Salt Lite, Low Sodium, 1kg"
quantity = re.search("(\d+\s?(kg|g|L))", text_content).group()
name = text_content.rsplit(quantity)[0].strip().rstrip(',')
description = "Name - {}, Quantity - {}".format(name, quantity)