有谁能告诉我关于自然语言处理器的特征生成器是什么?
答案 0 :(得分:4)
如果我正确地阅读此内容,我相信此引文中的“功能生成”指的是从文本中提取功能的过程。在没有详细介绍的情况下,这基本上可以获得您认为对预测/分类任务有用的数据维度,并将其放入矢量表示中。
例如,假设我们尝试创建分类器以确定电子邮件是否为垃圾邮件。我们可能会提取CONTAINS_WORD_NIGERIA
或IS_FROM_PERSON_IN_CONTACT_LIST
等功能。或者,如果我们遵循上面的引用,我们可以使用html标记(例如PERCENT_OF_WORDS_IN_HREF_TAG
)来制作专门的功能。正如您可能想象的那样,您可以在功能工程时过火,真正的挑战在于优化您的功能集,以便在看不见的数据时获得良好的结果。