如何通过解析其网页来确定游戏是“街机”还是“体育”或“策略”。我说的是在网页上托管的小型Flash游戏。
例如,请查看以下网页:http://www.miniclip.com/games/ski-safari/en/或http://www.2dplay.com/the-last-dino/the-last-dino-play.htm
是否存在可以进行某种“分类”的服务? 是否存在可以提供帮助的NLP算法?
答案 0 :(得分:1)
您可以从网页中提取相关文字,然后使用 bag of words approach 进行分类。在最简单的情况下,您只需为每个类别定义游戏类别和关键字列表。页面上的类别关键字越多,游戏就越有可能属于该类别。
对于更复杂的方法,请查看分类算法(例如Naive Bayes)和文本特定的功能(例如tf-idf)。
另请注意,从页面中提取相关文本非常重要。例如,如果页面包含关于此特定游戏和相关新闻列表(描述其他游戏)的几个词,那么来自相关新闻的片段可能会大大降低您的准确性。