我需要帮助一些事情..我是NLP新手和非结构化数据清理..有人可以回答以下问题...谢谢
- 需要有关正则表达式的帮助来识别像_male和female_这样的单词,或更像_word和word_或_something_something_something这样的单词,并删除开头或结尾但不在中间的下划线。
- 我想知道清理数据的正式过程,比如我们必须遵循哪些步骤来清理非结构化数据,我问这是因为我正在进行词形还原(使用POS)并替换常见的单词,如(什么东西,什么东西)到something_something。那么我应该遵循哪些步骤?我现在正在执行以下操作 - tokenize_clean> remove_numbers> remove_url> remove_slash> remove_cross> remove_garbage> replace_hypen_with_underscore> lemmatize_sentence> change_words_to_bigrams> remove_smaller_than_3(len小于3的单词)> remove_simlutaneous(多次同时发生的单词,例如死亡死亡) )> remove_location> remove_bullets> remove_stop> remove_simlutaneous
醇>
我应该在这些步骤中做些不同的事情吗?
- 我也有类似的话(group'shealthplan,因为其中任何一个都是以后的资产),(whenyouuseanon_networkprovider),(per \ xad),(vlfldq \ x10vxshuylvhg)
我应该怎么处理它们?完全忽略它们还是试着改进它们?
醇>
我的最终目标是将文档分类为是和否。欢迎任何建议。
如果需要,将提供更多示例和解释。