清理非结构化数据的正式流程是什么

时间:2016-12-21 15:12:57

标签: python nlp text-classification data-cleaning

我需要帮助一些事情..我是NLP新手和非结构化数据清理..有人可以回答以下问题...谢谢

  1. 需要有关正则表达式的帮助来识别像_male和female_这样的单词,或更像_word和word_或_something_something_something这样的单词,并删除开头或结尾但不在中间的下划线。
  2. 我想知道清理数据的正式过程,比如我们必须遵循哪些步骤来清理非结构化数据,我问这是因为我正在进行词形还原(使用POS)并替换常见的单词,如(什么东西,什么东西)到something_something。那么我应该遵循哪些步骤?我现在正在执行以下操作 - tokenize_clean> remove_numbers> remove_url> remove_slash> remove_cross> remove_garbage> replace_hypen_with_underscore> lemmatize_sentence> change_words_to_bigrams> remove_smaller_than_3(len小于3的单词)> remove_simlutaneous(多次同时发生的单词,例如死亡死亡) )> remove_location> remove_bullets> remove_stop> remove_simlutaneous
  3. 我应该在这些步骤中做些不同的事情吗?

    1. 我也有类似的话(group'shealthplan,因为其中任何一个都是以后的资产),(whenyouuseanon_networkprovider),(per \ xad),(vlfldq \ x10vxshuylvhg) 我应该怎么处理它们?完全忽略它们还是试着改进它们?
    2. 我的最终目标是将文档分类为是和否。欢迎任何建议。

      如果需要,将提供更多示例和解释。

1 个答案:

答案 0 :(得分:0)

  1. 正则表达式是否允许__abc__?如果没有,(\b_[a-zA-Z]+\s)|(\s[a-zA-Z]+_\b)|(\s_[a-zA-Z]+_\b)

  2. 你解决了什么问题?您是否准备了分类等文本?

  3. 您必须区分错误和符号序列。有一些科学的方法可以做到这一点,例如与语料库词,带注释的后缀树等进行比较。