推广 热搜： 收购ACF 石英加热管, 800 T型槽试验平台深圳回收ACF 求购ACF T型槽装配平台回收ACF 求购日立ACF T型槽地梁

有全量大数据了，还要用估算、抽样吗？人外是什么意思

日期：2023-12-14 作者：大数据架构师浏览：33 评论：0

核心提示：这是我的第59篇原创统计学是一个用数学研究现实世界的学科，研究的手段就是搜索、整理、分析、描述数据等手段。你看，跟数据分析师的工作是不是很像啊？统计学家是一个很有意思的职业，早期的统计学家大量的工作都

这是我的第59篇原创

统计学是一个用数学研究现实世界的学科，研究的手段就是搜索、整理、分析、描述数据等手段。你看，跟数据分析师的工作是不是很像啊？

统计学家是一个很有意思的职业，早期的统计学家大量的工作都花在了数据搜集和整理上了。

比如现在数理统计的奠基人英国数学和统计学家费希尔，长期在农业试验站搞生物实验，其实就是种地去了。

他们研究的目标都是很实用的问题。你看很多名词就知道了，什么假设检验、幸存者偏差、遗传算法、期望、生命表、鱼塘抽样、双盲测试等等，一看就明白研究的是啥。

这几年大数据火的不行不行的。很多人对大数据的理解是我们拥有全量数据了，可以不用做估算了，也不用做抽样统计了。咱先不对这个说法做任何评判，先看几个统计学家捞鱼的故事，之后你就会对这个问题有更进一步的理解了。

怎么知道池塘有多少条鱼？

你在老家承包了一个大池塘，但是你不知道里面有多少条鱼，这没法进行管理啊，这可咋办？

数鱼跟数羊不一样，数羊可以通过围栏来清点，数过的在一边，没数过的在另一边。但是鱼是会游来游去的，而且会上下左右乱游，这可没法精确清点。怎么办呢？

统计学家数数，统共分两步：

1、先随便捞一批鱼（比如10网，共1000条），打上标记，放池塘；

2、过一阵，再随便捞一批鱼（共800条），数一下有标记的占多少（比如有16条）。

这样就能估算出来了：

1000条鱼与池塘总鱼数X的关系是1000：X
有标记的鱼与样本量的关系是16:800。

因为两次都是随机捞的，这两次随机的概率分布基本是一致的。所以可以用一次的抽样的分布当做概率，然后推算总量：

1000:X=16:800，X=50000条，鱼塘大概有5万条鱼。

这就是抽样概率的实际应用-总量估算，这招在很多需要总量估计的地方都能用到。

怎样保证每一条鱼都同样幸运？

突然有一天，上帝给你一个任务：需要从池塘中挑选100条鱼进入天堂，你必须要保证公平。上帝在给你任务的时候，却忘了给你对应的能力。这可该咋办啊？

没关系，统计学家来帮你。

你同样不知道这个池塘有多少条鱼，因此保证每一条鱼都有公平的被选入的机会，就是一个非常困难的事情了。不过统计学家早已研究过了：

1、先捞100条鱼，放在备选筐中；

2、然后不断的捞鱼，拿其中一只过来，给他摇奖，号箱里是1-101号，如果摇的号在1-100之间，就入选，并从备选筐中随便捞一条鱼做好标记扔回去，否则把刚捞出来的鱼好标记扔回去。然后以后只捞没有标记的鱼就能达成公平的要求了。

3、继续重复第二个步骤，捞没有标记的鱼。每多一条鱼，就往号箱里加一个数，摇中了就放备选筐，没摇中就做标记扔回池塘里。比如捞了一上午了，捞出了第10000只鱼，这时候号箱里有10000个号，这时候给鱼摇奖，摇到1-100号，就留下，否则就打标记扔回去。

这就是传说中的“水塘采样/抽样”。有人说，这跟大数据有啥关系啊？这个可太有关系了！

水塘采样的大数据应用

水塘采样可以解决在总量未知的情况下进行同等概率的采样，而以下场景正好需要一种方法解决这个问题：

1、在内存不够大的时候，对全量数据进行随机采样；

这个应用场景是解决数据倾斜。我们需要对全量样本进行采样，得知数据的分布，然后根据数据分布进行分区，这样，每个节点分到的数据基本上是均匀的，也就解决了数据倾斜的问题。

2、在数据流中，对全量数据进行随机采样；

这个应用场景是实时数据处理，在流数据过来的时候，数据总量是不知道的，这时候就得用水塘采样法解决流式数据随机采样了。在线机器学习就会使用这种方法。

3、在分布式节点数据源进行随机采样。

这个应用场景是解决分布式数据来源进行随机采样的。比如在机器学习时，需要对全量数据进行随机采样，但是数据是存在很多个节点中的，你如果把所有数据都读取一遍，然后再采样，那简直太慢了。Flink就用了水塘采样，速度又快，又很精准。

结论

另外，我们用的A/B Test和质检也会用到各种抽样哦！听过买桃子的笑话吗？

小明去买桃子，买回来的每个桃子上都被咬了一口，原因是他需要吃一口才能确认桃子甜不甜。

我们买回来的所有产品都有质检这一关的。我们不可能把每一个产品都破坏性质量检验，这跟上面的小明没啥区别。

比如说这个，膨化食品袋中的小东西。这是是用来监测食品袋中是否会混入金属用的。是质检手段之一。厂家有意往产品中随机添加这些测试芯片，然后在出厂前进行芯片回收，用以确定该条产品线是否安全。一旦在出厂前找到了这些芯片，就说明前面的所有金属检测手段都失效了。

所以再有人跟你说：因为大数据的“全量”，所以不需要“抽样”统计时，你就可以随便抛出这几个应用场景打他的脸了。

总结一下，原因有三：

1、大数据的“全量”有个前提，就是你的“全量”真的是全量。而绝大多数情况我们都无法做到真正的全量。

2、并且即便是我们有全量数据了，因为全量数据太多了，为了保证效率，有时候我们也会用抽样；

3、有些事情真的不能全量。比如A/B Test和质检。

这些统计专业知识不是专门研究这些的人，压根就不会这样想，这也是为什么机器学习对数学、统计功底要求高的原因。所以啊，加油吧少年！好好学习，才能涨工资啊。

往期精彩回顾

干货|架构师的视角看透中台

热文|大数据工程师体系职业路径全解

干货 |什么才叫做懂业务？分析的5个层次

如果你觉得有趣，就请帮忙分享一下

原文链接：http://www.souke.org/news/show-301903.html，转载和复制请保留此链接。
以上就是关于有全量大数据了，还要用估算、抽样吗？人外是什么意思全部的内容，关注我们，带您了解更多相关内容。

标签： 数据统计学家标记

打赏

更多>同类资讯

• 一文快速解锁：价格分析模型递交名片的礼仪 • 如何形成数据分析思路？陈独秀后代
• 移动数据漫游关闭还是开启（数据漫游关闭还是开 • 昆明大数据统计，最近昆明品茶工作预约最多的喝
• 重新认识数据治理：打破你的固有认知！金城武真 • 别拿BI不当产品---进击的数据产品酥肉的制作方
• 行车记录仪adas什么意思（行车记录仪要不要adas • 解读数据，我发现了超好用的七步标准法记忆碎片
• 手把手教你写竞品分析白求恩大夫资料 • 小米锁屏密码忘记（小米锁屏密码忘了怎么办）

0 条相关评论

推荐资讯

孤独感如何影响现代人的消费？有关长城的资料

中年男人三宝：虎扑、什么值得买、懂车帝呼叫保持

新质生产力与品牌建设的新变化林继东个人资料

小游戏出海冠军！4399《菇勇者传说》深度拆解我的前半生剧情

从“红衣教主”转型“红衣大叔”：周鸿祎跨界车圈对品牌营销祖国祖国多美丽

中国高质量男性，终于被Lululemon盯上了！你要相信明天的天空会更蔚蓝是什么歌

领读阿克的《管理品牌资产》潘霜霜整容前

广告零容忍？B站用户喜欢的“恰饭”方式奶油小生

“成都迪士尼”爆火的真正原因，全网揭秘。。。发的多音字组词

“克走领导”的Tiffany项链火了！耐克蚌埠住了怎样制作手工相框

• 一文快速解锁：价格分析模型递交名片的礼仪	• 如何形成数据分析思路？陈独秀后代
• 移动数据漫游关闭还是开启（数据漫游关闭还是开	• 昆明大数据统计，最近昆明品茶工作预约最多的喝
• 重新认识数据治理：打破你的固有认知！金城武真	• 别拿BI不当产品---进击的数据产品酥肉的制作方
• 行车记录仪adas什么意思（行车记录仪要不要adas	• 解读数据，我发现了超好用的七步标准法记忆碎片
• 手把手教你写竞品分析白求恩大夫资料	• 小米锁屏密码忘记（小米锁屏密码忘了怎么办）