我有大约50个与我的项目相关的原始HTML页面内容。我不确定这些内容是否具有独特的模式。
我需要解析所有页面中的内容,并且必须根据关键字进行分类。
所有类似的关键字
'评论',“报告”,“反馈”,“描述”,“评论”,“成功率”,“失败率”
已抓取的HTML内容必须进行分类,并映射到相关的关键字。
还需要从页面中拆分内容及其标题以进行比较
我正在使用Python。
请您建议如何做到这一点?哪个适合选择?这个想法如何组织起来?
答案 0 :(得分:1)
这是典型的分类问题。您可以使用贝叶斯分类器来识别页面所属的类别。这样您就可以轻松地轻松扩展您关注的网站。
退房 http://www.python-course.eu/text_classification_introduction.php
总体介绍。我真正推荐的是一本名为O'Reilly编程集体智慧的书,这本书的例子都在python中,他们有一章致力于你想要做的事情。它们没有详细介绍,但足以让您启动并运行。
如果你只是想探索如何识别页面等。试试Weka这是一个基于java的工具。显然这与你的python要求不符,所以如果你对一般领域感兴趣的话,我会建议把它作为一种学习工具。
答案 1 :(得分:1)
如果您需要根据页面内容进行分类,我建议您查看NLTK(http://www.nltk.org/),这是一个开源python模块的自然语言工具包。
请勿尝试查看例如"报告"在页面中。报告可能会也可能不会报告"作为标题或内容。您可以使用NLTK查找与您的关键字相关的字词(例如成功率与批准率),或者使用相同的系列(例如说明与描述)。
查看页面'内容,并尝试定义什么使他们与其他人区别开来。例如,带有注释的页面可能会有诸如&#34之类的表达;我认为","在我看来"和主观的术语,通常是形容词和副词,比如" good","很快","可怕的"等等。报告不太可能有这样的词。
除内容外,页面结构可能因类别而异。如果你打算分析它,可能使用Beautiful Soup(http://www.crummy.com/software/BeautifulSoup/)进行解析是一个好主意。