在聊天文本数据集中用单个实体替换多个单词

时间:2018-11-30 04:42:58

标签: python-3.x nlp data-science spacy rasa-nlu

我有一个形状为50万行的聊天数据。我想替换或替换多个单词的实体[例如[纽约,纽约,纽约,纽约]使用python将单个实体作为“纽约”。

我尝试使用正则表达式来执行此操作,但是它会花费太多时间进行处理。我也有很多这样的话。是否有使用Python消耗更少时间的替代方法?

是否有很好的资源来研究有关Spacy和Rasa API的更多信息?

1 个答案:

答案 0 :(得分:0)

您可以提供一些您需要做的简单示例吗?我的意思是使用一些训练对象的例子。您需要更改实体名称还是实体

关于研究rasa和spacy的更多文档,两者在他自己的域(site / github)上都有不错的文档。

关于Rasa,您可以在这里找到好东西:

  1. Wandbox.org
  2. https://rasa.com/docs/nlu/
  3. https://medium.com/rasa-blog

关于SpaCy:

  1. https://forum.rasa.com/
  2. https://spacy.io/usage/

此外,您可以在媒体的帖子中找到更多真实的例子