有没有办法如何在Spark中混乱收集

时间:2016-02-09 17:12:38

标签: apache-spark

我需要用2.2 * 10 ^ 9行来重排文本文件。有没有办法如何将它加载到spark中,然后并行地对每个分区进行洗牌(对我而言,它足以在分区范围内进行洗牌)然后将其溢出回文件?

1 个答案:

答案 0 :(得分:3)

要在分区内进行随机播放,您可以执行以下操作:

<div class="swiper-slide" style="background-image:...buynow.jpg)" 
     href="#" onclick="document.getElementById('registerFrm').submit();">
    <form id="registerFrm" action="https://www.paypal.com/cgi-bin/webscr" method="post" target="_blank">
        <input type="hidden" name="cmd" value="_s-xclick">
        <input type="hidden" name="hosted_button_id" value="TG5...">
        <table>
            <tr><td><input type="hidden" name="on0" value="Pick A DAY">Pick A DAY</td></tr><tr><td><select name="os0">
            <option value="1">Day 1 $10.00 USD</option>
            <option value="2">Day 2 $10.00 USD</option>
            </select> </td></tr>
        </table>
        <input type="hidden" name="currency_code" value="USD">
    </form>
</div>

改组整个RDD:

{{1}}