我正在努力学习一些机器学习,但不幸的是,无监督学习对我不好,我希望StackOverflow的一些半监督学习能够帮助我! :)
我试图尽可能简单地从原始HTML中提取网页主题。我所拥有的是10,000个HTML文件的列表。我想在这个列表上运行一个程序,它将以TSV格式输出网页的id(它的文件名)和网页的主题。
我已经查看了许多用于执行此操作的API,并尝试使用python和scikit-learn实现我自己的功能,但是,我确信有一些简单有效的方法可以做到这一点我可以忽略
我有什么:
Folder containing over 10,000.html files, labelled from 1 to 10,000.
我想要什么
运行的程序:
foreach(file in folder){
//Analyse HTML in file
//Predict topic from HTML (I believe this is called Latent Semantic Analysis).
//Write to next line of TSV "file\ttopic"
}
所以我们最终得到了一个形式为
的tsv1 Recipe
2 Football
3 Technology
...
10,000 Television