我有来自Twitter帐户的一些文本数据。这些推文中包含的数字是指健身房特定区域(通常是举重室和有氧运动区)的人数。
我想提取体重室的人数,但问题是文本很少以标准形式出现。一些例子包括:
81 WR 21 CM
Weight room is looking busy with 121 people, while cardio has only 20!
WR:200 CM:50
我可以列举帐户可以引用举重室的所有方式,但我需要一种方法来确定哪个号码属于哪个区域。
spacy可以执行一些语义归属吗?任何人都可以将我推荐给一个资源,或建议以新的角度重新解决问题吗?
答案 0 :(得分:0)
体重室看起来很忙,有121人,而有氧运动只有20人!
这将是一种监督技术。 1)对标签和依赖树使用spacy。 2)在它上面准备一个基于CRF ++的解析器。