从网页中提取主题

时间:2013-12-08 21:04:51

标签: python html machine-learning classification latent-semantic-analysis

我正在努力学习一些机器学习,但不幸的是,无监督学习对我不好,我希望StackOverflow的一些半监督学习能够帮助我! :)

我试图尽可能简单地从原始HTML中提取网页主题。我所拥有的是10,000个HTML文件的列表。我想在这个列表上运行一个程序,它将以TSV格式输出网页的id(它的文件名)和网页的主题。

我已经查看了许多用于执行此操作的API,并尝试使用python和scikit-learn实现我自己的功能,但是,我确信有一些简单有效的方法可以做到这一点我可以忽略

我有什么:

Folder containing over 10,000.html files, labelled from 1 to 10,000.

我想要什么

运行的程序:

foreach(file in folder){
   //Analyse HTML in file
   //Predict topic from HTML (I believe this is called Latent Semantic Analysis).
   //Write to next line of TSV "file\ttopic" 
}

所以我们最终得到了一个形式为

的tsv
1   Recipe
2   Football
3   Technology
...
10,000   Television

0 个答案:

没有答案