1。创建`arff`文件

Question

我是机器学习的新手，我正在寻找一种基于训练数据集学习字符串模式的技术。

我的问题： 我有不同类型的单词，属于不同的类别。每个类别都有自己的模式（例如，一个具有固定长度，只有特殊字符，另一个存在其他字符，只出现在这个“单词”类别中）。

例如：

"ABC" -> type1
"ACC" -> type1
"a8 219" -> type2
"c 827" -> type2
"ASDF 123" -> type2
...

我正在寻找机器学习技术，根据训练数据自行学习这些模式。我已经尝试自己定义一些预测变量（例如字长，特殊字符数......），然后使用神经网络来学习和预测类别。但那可能不是我想要的。我想要一种技术来自己学习每个类别的模式 - 甚至学习我从未想过的模式。

我想给算法提供学习数据（由单词类别示例组成），并希望它学习每个类别的模式，以便在生产后期从类似或相同的单词预测类别。

有没有最先进的方法呢？

感谢您的帮助

Answer 1

由于你有标签weka，过程将是

1。创建`arff`文件

的订阅源

实施例

@relation weka_mymodel_model

@attribute text string
@attribute @@class@@ {type1,type2}

@data
'boy am I stupid. I mean, wow, that was a major oversight. let\'s blame it on monday.',type1
..... all your data

2。在weka软件中加载文件

在预处理选项卡中，您可以过滤（转换）数据;例如，可以与StringToWordVector分类器等一起使用的J48，但我们暂时不会这样做，只使用可以直接处理输入的分类器

3。分类

在标签＆＃34;分类＆＃34;中，选择属性@@class@@，然后选择一个可以直接支持文字的分类器，一个好的开始是NaiveBayesMultinominal

在分类器的界面中，设置设置，Stemmer，StopWords，Tokenizer等。

要使用的分类器以及使用哪些设置取决于数据，但您可以测试运行分类器＆＃34;使用训练集＆＃34;，＆＃34;提供的测试集＆＃34;或＆＃34;交叉折叠＆＃34;了解不同设置的结果。

4创建模型

如果您对设置感到满意，请导出模型（右键单击结果＆gt;＆gt;保存模型）。

5使用型号

在java中加载模型，创建实例，将其传递给模型并检索结果。

结论

weka软件允许您使用不同的设置测试不同的分类器算法，找到最佳分类器的最佳方法是在＆＃34;提供的测试中测试运行不同分类器（使用过滤器，选择属性等）和不同的设置设定＆＃34;并检查结果。

[Example of classifier output ]

用于学习字符串模式的机器学习技术

1 个答案:

1。创建`arff`文件

2。在weka软件中加载文件

3。分类

4创建模型

5使用型号

结论

用于学习字符串模式的机器学习技术

1 个答案:

1。创建arff文件

2。在weka软件中加载文件

3。分类

4创建模型

5使用型号

结论

1。创建`arff`文件