我正在制作一个流程,该流程将对我们内容丰富的网站中的一个(可能是几个)执行natural language processing(NLP)。一旦NLP完成,我想做的是自动将输出(通常是一组你可能认为是标记的术语,因为该隐喻的普遍性)组织成某种标准或普遍接受的组织结构。
在一个完美的世界里,我真的希望这是根据民俗学概念(而不是分类学)来源,因为最终的目标是瞄准/吸引真实的人而不是“领域专家”,但我对想法和最佳实践持开放态度。出于可伸缩性的明显目的,我想自动化这个税/民俗的人口,以便团队/组织中的“某个人”不负责查看一堆单词(有或没有上下文)和任意充实了树的上下文组件。
我有一些想法,这需要一些研究来建立可行性,但我对这种事情的实际经验完全没有,所以这些想法实际上归结为我编造的东西,可能在完成任务中发挥作用任务。想象其他人对这类事情有更多的经验,我希望我能站在你的肩膀上。
感谢您的想法和见解。
实践示例
我针对an article on my own blog运行了NLP。 NLP以足够的相关性返回以下术语:
现在我想在没有人为干预的情况下将这些条款纳入税收/民众区。在这种情况下,“Git”和“Rob Wilkerson”的术语可以被分类 - 如果这些术语没有产生足够的牵引力来进行跟踪,那么该过程中将存在/将会有一个额外的规定将从结构中删除术语。另一方面,“改变”可能过于模糊/模糊,不值得为此付出代价。