Python Web Scraping:从非结构化数据中拆分数量

时间:2018-10-26 10:46:35

标签: python-3.x selenium web-scraping web-crawler data-cleaning

我在Web Scraping和python领域相对较新。我正在尝试从超市/在线杂货店抓取数据。 我在清理已抓取的数据时遇到问题- 数据样本报废

  • 塔塔盐精简版,低钠,1kg
  • Fortune Kachi Ghani芥末油1升(宠物瓶)
  • 波旁威士忌(Bourbon Bliss),150克(买3送1)亚马逊品牌
  • Vedaka Popular Toor / Arhar Dal,1公斤
  • Eno瓶100克(常规)专业版
  • 自然100%有机Masoor黑色全脂食品,500克
  • Excel液体洗涤剂1.05升

考虑到以上数据样本,我想将数量与产品名称分开。 所需格式 名称-塔塔盐精,低钠, 数量-1kg 名称-Fortune Kachi Ghani纯芥末油
数量-1公升等等 我试图用正则表达式

分隔它们
re.split("[,/._-]+", i)

,但部分成功。 任何人都可以帮助我如何处理数据集。预先感谢。

1 个答案:

答案 0 :(得分:1)

您可以尝试对每个字符串实施以下解决方案:

text_content = "Tata Salt Lite, Low Sodium, 1kg"
quantity = re.search("(\d+\s?(kg|g|L))", text_content).group()
name = text_content.rsplit(quantity)[0].strip().rstrip(',')
description = "Name - {}, Quantity - {}".format(name, quantity)