如何对未标记的数据进行分类?

时间:2019-04-08 15:02:18

标签: python machine-learning classification

我是机器学习的新手。我正在尝试建立一个将文本分类为具有url或没有url的分类器。数据未标记。我只有文字数据。我不知道该如何进行。任何帮助或示例,不胜感激。

2 个答案:

答案 0 :(得分:0)

  1. 您无法使用未标记的数据训练分类器。您需要标记的示例。有可以为您贴上标签的服务,但是手工操作可能会更简单(我想您每分钟可以完成一次)。
  2. 堆栈溢出用于编程;这个问题更适合Cross-Validated。也许他们会比我有更好的建议。
  3. 标记数据后,网络上有很多关于此主题的信息-例如,this blog是一个很好的起点,如果您已经对此问题有所了解。

祝你好运!

答案 1 :(得分:0)

由于是文本,因此可以使用public class GetAllProfilesQueryHandler : IRequestHandler<GetAllProfilesQuery, ProfilesListViewModel> { private readonly IServiceProvider _serviceProvider; public GetAllProfilesQueryHandler(IServiceProvider serviceProvider) { _serviceProvider = serviceProvider; } public async Task<ProfilesListViewModel> Handle(GetAllProfilesQuery request, CancellationToken cancellationToken) { return new ProfilesListViewModel { ProfileDbContext context = (ProfileDbContext)this._serviceProvider.GetService(typeof(ProfileDbContext)); IMapper mapper = (IMapper)this._serviceProvider.GetService(typeof(IMapper)); Profiles = await context.Profiles.ProjectTo<ProfileLookupModel>(mapper.ConfigurationProvider).ToListAsync(cancellationToken) }; } } 技术创建矢量。

  • 您可以使用bag of words将普通类型的文本聚类。

  • 然后使用分类器,具体取决于集群的数量。

  • 这样,您就可以得到带有标签的训练集。

    • 如果有两个聚类,则可以使用逻辑回归之类的二进制分类器。
    • 如果您有多个课程,则需要基于多项逻辑回归训练模型
    • 或使用cosine similarity技术训练多个物流模型。
  • 最后,您可以使用k倍交叉验证来测试模型。