有趣的NLP /机器学习风格项目 - 分析隐私政策

时间:2012-03-14 19:57:18

标签: language-agnostic artificial-intelligence nlp machine-learning

我想要一些有关我已被分配的有趣问题的输入。任务是分析数百个,最后是数千个隐私策略,并确定它们的核心特征。例如,他们是否占用了用户的位置?他们是否与第三方共享/销售?等等。

我和几个人谈过,阅读了很多关于隐私政策的内容,并亲自考虑过这个问题。这是我目前的攻击计划:

首先,阅读大量隐私,找到满足某种特征的主要“线索”或指标。例如,如果数百个隐私政策具有相同的行:“我们将采取您的位置。”,该行可能是一个提示,100%确信该隐私政策包括获取用户的位置。其他提示会对某个特征提供更小的置信度。例如,“位置”一词的存在可能会增加用户位置存储25%的可能性。

我们的想法是不断开发这些线索,以及他们适当的置信区间,以便我可以高度自信地对所有隐私政策进行分类。这里可以类比电子邮件垃圾邮件捕获系统使用贝叶斯过滤器来识别哪些邮件可能是商业和未经请求的。

我想问一下你们是否认为这是解决这个问题的好方法。你究竟会如何解决这样的问题?此外,您是否建议使用任何特定工具或框架。欢迎任何输入。这是我第一次做一个涉及人工智能的项目,特别是机器学习和NLP。

3 个答案:

答案 0 :(得分:4)

  

我们的想法是不断开发这些线索,以及他们适当的置信区间,以便我可以高度自信地对所有隐私政策进行分类。这里可以类比电子邮件垃圾邮件捕获系统使用贝叶斯过滤器来识别哪些邮件可能是商业和未经请求的。

这是text classification。鉴于每个文档有多个输出类别,它实际上是multilabel classification。标准方法是manually label一组文档,其中包含您要预测的类/标签,然后根据文档的特征训练分类器;典型的单词或n-gram出现次数或计数,可能由tf-idf加权。

用于文档分类的流行学习算法包括朴素贝叶斯和线性SVM,但其他​​分类器学习者也可以工作。任何分类器都可以通过one-vs.-rest(OvR)构造扩展到多标签分类器。

答案 1 :(得分:2)

确实是一个非常有趣的问题!

在更高的层次上,您想要的是summarization - 文档必须简化为几个关键短语。这远非一个解决的问题。一种简单的方法是搜索关键词而不是关键词。您可以尝试使用LDA等主题建模来查找每个文档的内容。然后,您可以搜索所有文档中存在的主题 - 我怀疑会出现什么与许可证,位置,版权等有关。MALLET具有易于使用的LDA实现。

答案 2 :(得分:0)

我会将此视为一个机器学习问题,你试图以多种方式对事物进行分类 - 即想要位置,想要ssn等。

您需要枚举要使用的特征(位置,ssn),然后为每个文档说明该文档是否使用该信息。选择您的功能,训练您的数据,然后进行分类和测试。

我认为像单词和n-gram这样的简单功能可能会让你很快,而且与ssn或location之类的东西相关的单词词典可以很好地完成它。

使用您选择的机器学习算法 - 朴素贝叶斯非常容易实现和使用,并且可以作为对该问题的第一次尝试。