查找网页内容的语义

时间:2016-01-20 16:16:31

标签: machine-learning nlp semantics

我需要在网页中找到文本的语义。 即找出网页内容是诗歌,对话还是散文等 我可以感觉到这可以通过机器学习和自然语言处理来完成。如果有人可以提供有关可以遵循的技术的更多信息以及参考某些研究论文,将会很有帮助。

1 个答案:

答案 0 :(得分:1)

我会看看行/句子的长度。它们被证明是这种分类任务的相当有用的功能。

如果您可以访问足够的标记文本,通过提取特征(单词数量,每行和每个句子的平均单词数,总长度等),您可以训练分类器(例如决策树或随机森林)。并让分类算法完成剩下的工作。