标签: python-3.x tokenize lexer
我正在用python编写ML代码。我需要用不同的语言(例如Java,C等)标记不同的源代码或脚本。
我正在搜索像Spacy这样的软件包或库,以便能够进行词法分析和解析源代码。我已经尝试过使用pydriller来构建自己的词法分析器,但效果并不理想。 我想根据开发人员的源代码来预测他们的专业水平。我想训练一个模型来预测每个开发人员的专业水平,所以我需要解析和标记化源代码,以将其输入到我的ML算法中。