O社区,我正在为一个应用程序编写伪代码,该应用程序通过阅读页面的源代码从远程主机(Web服务器,而不是我自己的)提取歌词。 这是假设:
我不是在寻找能够回答问题的源代码,但是用于查询远程网页的明文内容的技术术语是什么?
如果我可以确定网页命名方案,我可以将URL对象的指针设置到适当的网页,对吧?唯一的限制是不规则的大写,只有明文在完全相同的地方才能有效。
你有什么建议吗? 我正在为“Buck 65”这样思考这样的事情,唱着“我看起来很棒”
- 网址网址=新网址(http://www.elyrics.net/read/b/buck-65-lyrics/i-look-good-lyrics.html);
- 我可以替代“buck-65-lyrics”& “i-look-good-lyrics”反映用户意见?
- 输入重定向到PostgreSQL表
目前的目标:
- 用户将请求{song,artist,album}的名称,Java前端将查询远程网页
- 将使用Java前端
提取完整源代码(包含明文)- 歌词将从源代码中提取(不知何故)
- 如果歌曲当前未被PostgreSQL服务器编入索引,则会添加到表格中。
- 将在明文上进行操作以适应该计划的目标
我只是在寻找方向。如果我走向错误的方向,请告诉我。这仅适用于伪代码。我不是在寻找答案,也不是在分发,我需要帮助来确定我需要做什么。是否有用于提取您知道的明文的外部库?我正在努力实现哪些技术名称?
谢谢,泰勒
答案 0 :(得分:1)
这种方法称为screen or data scraping。请注意,使用它通常会破坏目标服务的terms of service。通常,这不是一种强有力的方法,这就是为什么类似API的服务可以保证它们如何运作的原因。
您的方法听起来似乎在大多数情况下都会起作用,但需要记住一些事项。
答案 1 :(得分:0)
从网站提取内容的技术术语是网页抓取,你可以google那个。有很多在线库,对于java有jsoup。虽然很容易编写自己的正则表达式。 我会做的第一件事是我使用curl并从网站上获取内容仅用于测试,这将让你对如何做的公平的想法。
答案 2 :(得分:0)
您必须使用HTML解析器。其中最受欢迎的是jsoup。
注意你所做的事情的法律方面;)