从网页提取通用文章

时间:2010-11-11 08:58:06

标签: java extraction html-content-extraction

我将开始我的文章提取工作。

我将要完成的任务是提取在不同网页上发布的酒店评论(例如1. http://www.tripadvisor.ca/Hotel_Review-g32643-d1097955-Reviews-San_Mateo_County_Memorial_Park_Campground-Loma_Mar_California.html,2。http://www.travelpod.com/hotel/Comfort_Suites_Sfo_Airport-San_Mateo.html

我需要用Java完成任务,而我在过去几个月里只使用Java。

以下是我对这些问题的看法。

  1. 是否有可能以通用方式从不同的网页单独提取评论。

  2. 如果有任何支持Java任务的API,请告诉我。

  3. 另外,请告诉我您的想法/来源,这对我来说更有助于完成上述任务。

  4. 更新

    如果网络中有任何相关的例子,请发布相同的例子,因为这可能很有用。

1 个答案:

答案 0 :(得分:4)

您可能需要针对Java的屏幕抓取工具,例如TagSoupNekoHTMLJSoup也很受欢迎。

但是,从tripadvisor等第三方网站提取数据时,您也有更大的法律考虑。他们的政策允许吗?