Question

我正在努力学习一些机器学习，但不幸的是，无监督学习对我不好，我希望StackOverflow的一些半监督学习能够帮助我！：）

我试图尽可能简单地从原始HTML中提取网页主题。我所拥有的是10,000个HTML文件的列表。我想在这个列表上运行一个程序，它将以TSV格式输出网页的id（它的文件名）和网页的主题。

我已经查看了许多用于执行此操作的API，并尝试使用python和scikit-learn实现我自己的功能，但是，我确信有一些简单有效的方法可以做到这一点我可以忽略

我有什么：

Folder containing over 10,000.html files, labelled from 1 to 10,000.

我想要什么

运行的程序：

foreach(file in folder){
   //Analyse HTML in file
   //Predict topic from HTML (I believe this is called Latent Semantic Analysis).
   //Write to next line of TSV "file\ttopic" 
}

所以我们最终得到了一个形式为

的tsv

1   Recipe
2   Football
3   Technology
...
10,000   Television

从网页中提取主题

0 个答案: