应用错误收集

我需要帮助一些事情..我是NLP新手和非结构化数据清理..有人可以回答以下问题...谢谢

需要有关正则表达式的帮助来识别像_male和female_这样的单词，或更像_word和word_或_something_something_something这样的单词，并删除开头或结尾但不在中间的下划线。
我想知道清理数据的正式过程，比如我们必须遵循哪些步骤来清理非结构化数据，我问这是因为我正在进行词形还原（使用POS）并替换常见的单词，如（什么东西，什么东西）到something_something。那么我应该遵循哪些步骤？我现在正在执行以下操作 - tokenize_clean＆gt; remove_numbers＆gt; remove_url＆gt; remove_slash＆gt; remove_cross＆gt; remove_garbage＆gt; replace_hypen_with_underscore＆gt; lemmatize_sentence＆gt; change_words_to_bigrams＆gt; remove_smaller_than_3（len小于3的单词）＆gt; remove_simlutaneous（多次同时发生的单词，例如死亡死亡））＆GT; remove_location＆GT; remove_bullets＆GT; remove_stop＆GT; remove_simlutaneous

我应该在这些步骤中做些不同的事情吗？

我也有类似的话（group'shealthplan，因为其中任何一个都是以后的资产），（whenyouuseanon_networkprovider），（per \ xad），（vlfldq \ x10vxshuylvhg）我应该怎么处理它们？完全忽略它们还是试着改进它们？

我的最终目标是将文档分类为是和否。欢迎任何建议。

如果需要，将提供更多示例和解释。