确定属于某一主题

时间:2017-12-15 17:16:45

标签: python nlp spacy

我有来自Twitter帐户的一些文本数据。这些推文中包含的数字是指健身房特定区域(通常是举重室和有氧运动区)的人数。

我想提取体重室的人数,但问题是文本很少以标准形式出现。一些例子包括:

81 WR 21 CM

Weight room is looking busy with 121 people, while cardio has only 20!

WR:200 CM:50

我可以列举帐户可以引用举重室的所有方式,但我需要一种方法来确定哪个号码属于哪个区域。

spacy可以执行一些语义归属吗?任何人都可以将我推荐给一个资源,或建议以新的角度重新解决问题吗?

1 个答案:

答案 0 :(得分:0)

体重室看起来很忙,有121人,而有氧运动只有20人!

这将是一种监督技术。 1)对标签和依赖树使用spacy。 2)在它上面准备一个基于CRF ++的解析器。

https://taku910.github.io/crfpp/