网站首页娱乐新闻焦点新闻历史秘闻社会百态技术文章科技资讯其他资讯女性专栏

首页 > 网络文摘 > 正文

spark RDD countApproxDistinct

浏览数：142 / 时间：2015年06月11日

package com.latrobe.spark

import org.apache.spark.{SparkConf, SparkContext}

/**
 * Created by spark on 15-1-18.
 * countApproxDistinct : RDD的一个方法，作用是对RDD集合内容进行去重统计。
 * 该统计是一个大约的统计，参数relativeSD控制统计的精确度。
 * relativeSD越小，结果越准确
 */
object CountApproxDistinct {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("spark-demo").setMaster("local")
    val sc = new SparkContext(conf)

    /**
     * 构建一个集合，分成20个partition
     */
    val a = sc.parallelize(1 to 10000 , 20)
    //RDD a内容复制5遍，其中有50000个元素
    val b = a++a++a++a++a

    //结果是9760，不传参数，默认是0.05
    println(b.countApproxDistinct())
    //结果是9760
    println(b.countApproxDistinct(0.05))
    //8224
    println(b.countApproxDistinct(0.1))
    //10000
    println(b.countApproxDistinct(0.001))

  }
}

郑重声明：本站内容如果来自互联网及其他传播媒体，其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。

spark RDD countApproxDistinct

标签： Android iOS 移动互联终端开发

相关文章

随机文章

您可能还喜欢

您可能还喜欢

最新图文

更多

可爱穿搭很重要

可爱穿搭很重要

工藤美樱写真集

工藤美樱写真集

斯米兰海水是真不错

斯米兰海水是真不错

海边想拍氛围照

海边想拍氛围照

海岛度假

海岛度假

甜妹 ootd 穿搭

甜妹 ootd 穿搭

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

7080后儿时集体回忆插画

7080后儿时集体回忆插画

西安子午峪满山的白杜鹃太美了

西安子午峪满山的白杜鹃太美了

职业模特拍摄省事很多

职业模特拍摄省事很多

您可能还喜欢

更多

货车侧翻市民：不抢是傻子

货车侧翻市民：不抢是傻子

厦门旅游海边夜拍

厦门旅游海边夜拍

网红赵喵喵

网红赵喵喵

桂林旅游实拍

桂林旅游实拍

西安子午峪满山的白杜鹃太美了

西安子午峪满山的白杜鹃太美了

特斯拉电动车图集

特斯拉电动车图集

广州海陆空盛筵开场比基尼美女助阵

广州海陆空盛筵开场比基尼美女助阵

绝对罕见!目睹各国名人遗容照

绝对罕见!目睹各国名人遗容照

沈尹默书法

沈尹默书法

让人心灵震惊！你能坚持看到第几张？

让人心灵震惊！你能坚持看到第几张？

您可能还喜欢

更多

浙江苍南城管打人致其吐血引近千群众围观

浙江苍南城管打人致其吐血引近千群众围观

普京小时候照片

普京小时候照片

全国高校校花新鲜出炉

全国高校校花新鲜出炉

NBA 新晋第一女神走红

NBA 新晋第一女神走红

李敏镐图片精选

李敏镐图片精选

国际比基尼健美小姐冠军

国际比基尼健美小姐冠军

美国小姐著比基尼参加水上排球大赛

美国小姐著比基尼参加水上排球大赛

鲁迅书法绵里裹铁

鲁迅书法绵里裹铁

深圳小区现4层楼深大坑保安被吞噬亡

深圳小区现4层楼深大坑保安被吞噬亡

吴莫愁发新片谈李代沫动情落泪：等他回来

吴莫愁发新片谈李代沫动情落泪：等他回来