如何从HTML页面中巧妙地提取信息?

时间:2013-05-16 19:53:49

标签: parsing search full-text-search machine-learning nlp

我正在构建一些可以或多或少地从任意网站中提取关键信息的东西。例如,如果我抓住一个麦当劳页面并想以编程方式弄清麦当劳的开始和结束时间,那么这是一种什么样的智能方式呢?

在一般情况下,也许我也想知道麦当劳是卖鸡翅还是麦当劳的地址。

我的想法是,我将针对timewingsaddress提供具体案例,并为这3个案例中的每一个都设置唯一的代码。

但我不确定如何处理这个问题。我已经抓取了网站,并且已经将HTML和相关信息解析为JSON。我当前的方法类似于查找title标记并检查title标记是否包含addresslocation等关键字。如果title包含那些key words,然后我将浏览当前页面并识别类似地址的内容块,例如城市或国家/地区的内容或包含StStreet字样的内容内部。

我想知道是否有更好的方法来寻找关键数据,寻找更好的起点或反弹一些想法和诸如此类的东西。或者即使有好的文章可以阅读,这也很好。

如果不清楚,请告诉我。

感谢您的帮助。

1 个答案:

答案 0 :(得分:2)

为了解析这些HTML页面,你必须知道它们的结构。这个问题没有通用的解决方案。每个网页都需要自己的解决方案。但是,一个好的方法是确保HTML代码也是有效的XML,然后在已知位置use XPath to access elements。也许甚至有一个类似XPath的标准HTML解决方案(并不总是有效的xml)。这样,您就可以为每个页面定义一组XPath,为您提供特定元素(如果存在)。