Question

我有来自Twitter帐户的一些文本数据。这些推文中包含的数字是指健身房特定区域（通常是举重室和有氧运动区）的人数。

我想提取体重室的人数，但问题是文本很少以标准形式出现。一些例子包括：

81 WR 21 CM

Weight room is looking busy with 121 people, while cardio has only 20!

WR:200 CM:50

我可以列举帐户可以引用举重室的所有方式，但我需要一种方法来确定哪个号码属于哪个区域。

spacy可以执行一些语义归属吗？任何人都可以将我推荐给一个资源，或建议以新的角度重新解决问题吗？

Answer 1

体重室看起来很忙，有121人，而有氧运动只有20人！

这将是一种监督技术。 1）对标签和依赖树使用spacy。 2）在它上面准备一个基于CRF ++的解析器。