我正在尝试解决无意义的提交消息和pr描述的问题,TensorFlow与GitHub action结合使用。enter link description here
但是我正在努力弄清楚如何定义tex的“无意义”。
毫无意义的描述 将新文件夹添加到存储库
有意义的描述 添加了资产文件夹以容纳图像文件
任何朝着正确方向的指针都值得赞赏。
答案 0 :(得分:1)
好吧,显然这是一个文本分类问题,您的用例非常经典。要将github提交描述分类为有意义或无意义,您必须拥有大量的训练数据。数据将由描述字符串组成,这些描述字符串被标记为有意义/无意义。我使用它的方式以及使用Tensorflow和其他深度学习库(例如Keras)来解决此类分类问题的常规方法是,将训练数据以带有两列的.csv文件形式表示,
description
(包含提交的描述字符串)result
(包含meaningful / meaningless
或1 / 0
之类的判决)然后您可以使用此数据训练文本分类器,然后可以使用训练后的模型预测给定的描述是否正确。
我建议您尝试Ludwig。这是Uber的开源深度学习库,对于text classification之类的任务非常易于使用。它构建在TensorFlow之上,非常易于使用。
希望能回答您的查询。谢谢!