确定标题/文字的意义

时间:2019-07-01 08:39:58

标签: tensorflow machine-learning text-recognition

我正在尝试解决无意义的提交消息和pr描述的问题,TensorFlow与GitHub action结合使用。enter link description here

但是我正在努力弄清楚如何定义tex的“无意义”。

毫无意义的描述 将新文件夹添加到存储库

有意义的描述 添加了资产文件夹以容纳图像文件

任何朝着正确方向的指针都值得赞赏。

1 个答案:

答案 0 :(得分:1)

好吧,显然这是一个文本分类问题,您的用例非常经典。要将github提交描述分类为有意义或无意义,您必须拥有大量的训练数据。数据将由描述字符串组成,这些描述字符串被标记为有意义/无意义。我使用它的方式以及使用Tensorflow和其他深度学习库(例如Keras)来解决此类分类问题的常规方法是,将训练数据以带有两列的.csv文件形式表示,

  1. description(包含提交的描述字符串)
  2. result(包含meaningful / meaningless1 / 0之类的判决)

然后您可以使用此数据训练文本分类器,然后可以使用训练后的模型预测给定的描述是否正确。

我建议您尝试Ludwig。这是Uber的开源深度学习库,对于text classification之类的任务非常易于使用。它构建在TensorFlow之上,非常易于使用。

希望能回答您的查询。谢谢!