从网站提取数据的方法?

时间:2013-05-15 19:36:48

标签: java web-services http curl web-scraping

我想从网站上获取数据(例如,某人正在使用的名称,标识号和资源列表)并将其发布到其他网站。

我在想的是使用cURL从一个网站上的现有REST api中获取信息。然后,我想要做的就是编写一个程序或api将这些信息发布到另一个网站上。

使用cURL后,我如何/在哪里存储该信息,以便我可以通过其他程序使用它?编写一个从第一个网站提取信息并将其发布到另一个网站的程序会更容易吗?如果是这样可以使用Java这样做/给出如何这样做的想法?我不是要求代码,只是一种方法来做到这一点。我正在使用Eclipse for Java Web EE开发人员的IDE。

1 个答案:

答案 0 :(得分:1)

我把它写成2-3个程序。一个提取数据,一个格式化数据(如果需要),一个发布数据。

我的直觉告诉我,最简单的方法是使用纯粹的bash脚本。但是如果你想为此使用Java,你可以。

我会将输出保存在文件中以供后读取。这样做的好处是可以让你在没有其他2个程序工作的情况下编写/测试海报。也就是说,我建议你先写一下get-er程序。这样你就知道你真正在处理什么数据了。

现在,如果你碰巧在java中编写了格式化程序和post-er,我会把它写成一个程序而不是它们之间的“管道”文件。格式化程序将读入文件,将其转换为数据结构/类,后者将读取此数据结构/类。

这与我之前的段落略有不同。关键是每个“部分”彼此独立。这允许您在不运行整个事物的情况下测试零件。这是重要的事情。

关于如何/在何处存储来自get-er的信息,只需将其重定向到文件即可。 Here's a tutorial on how.

说实话,我不知道你是在使用linux cURL程序还是java implementation like this one。根据这个,我的答案会有很大差异。