Java正则表达式从mavenrepository页面提取td内容

时间:2017-05-05 09:14:13

标签: html regex maven web-scraping

我需要从maven存储库页面中提取许可证信息超链接(最终目标是查找与每个maven依赖关联的版权信息)。以下是html的相关部分。

我希望在

许可证

标记下方的表格下获得所有href。在这种情况下,它是http://www.apache.org/licenses/LICENSE-2.0.txt。可能还有其他有更多许可证链接,我想在字符串列表中捕获它们。请帮我正则表达式。或者,如果任何人有其他想法,例如rest api来获得许可证,那么鉴定的工件和来自mavenrepository的版本将是非常棒的。期待您的回音。以下是我试图抓取许可证网址的源页面。 https://mvnrepository.com/artifact/com.fasterxml.jackson.core/jackson-annotations/2.5.0

<div class="version-section">
                <h2>Licenses</h2>
                <table class="grid" width="100%">
                    <thead>
                        <tr>
                            <th style="width: 16em;">License</th>
                            <th>URL</th>
                        </tr>
                    </thead>
                    <tbody>
                        <tr>
                            <td>The Apache Software License, Version 2.0</td>
                            <td>
                                <a href="http://www.apache.org/licenses/LICENSE-2.0.txt" rel="nofollow">http://www.apache.org/licenses/LICENSE-2.0.txt</a>
                            </td>
                        </tr>
                    </tbody>
                </table>
            </div>

0 个答案:

没有答案