# 数据思维基础

> 本文档会介绍一些数据分析思维中的基本思维共识。这是整个数据分析过程的基础，即这些基础思维将贯彻整个数据分析过程，是数据思维的基石。

![数据思维基础共识](img/data-thinking/数据思维基础共识.jpg)

**数据思维基础共识**：

- **[平均值不一定能够代表整体水平](#平均值并不一定能代表整体水平——辛普森悖论)**
  
- **[重要的数据往往只占小部分](#重要的数据往往只占小部分——二八法则)**
  
- **[随机样本越多越接近预期](#随机样本越多越接近预期——大数定律)**
  
- **[少数随机样本是无法预估的](#少数随机样本是无法预估的——小数陷阱)**
  
- **[信息越透明，越塔尖的个体越吸附资源](#信息越透明，越塔尖的个体越吸附资源——拉普拉斯分布)**

- **[现实会比预期更接近平均值](#实际数据会比预期数据更接近平均值——均值回归)**

本文档会介绍和分析一些数据思维中的基础思维共识，也就是一些数据思维中最基本的**常识**。这些**常识**有的是数学知识，
有的是对现实发展规律的总结，对齐这些基本的数据思维，达成一个共识是整个数据思维学习的基础。

## 平均值并不一定能代表整体水平——辛普森悖论

> 平均值并不一定能代表整体水平。

**定义**：**辛普森悖论**是指在分组比较中都占优势的一方，有的时候在总评中反而是失势的一方。
用大白话讲就是，你可能各方面都比对方强，但是算出来的整体水平可能确实显示你弱于对方。

举个例子，我们看一下下图的NBA球员的例子，现在请问你觉得是球员A的水平高还是球员B呢？

![NBA两位球员整体投中率](img/data-thinking/img_6.png)

答案是不一定，为什么呢？因为`平均值并不一定能代表整体水平`，有可能球员A水平高，也有可能球员B水平高。
下面我们给出一个球员B水平高于球员A水平的例子。如下图所示：

![NBA两位球员投球表现](img/data-thinking/img_7.png)

球员B不论是2分球还是3分球的命中率都高于球员A，但是整体算出来的数据表现确实球员B（56%）不如球员A（68.3%）。
整体平均值不能代表各分组情况，分组结论和整体平均值结论可能会大相径庭。

是不是有点意外，这就是**辛普森悖论**，我们可能得到第一个基础的数据思维共识：**平均值不一定代表整体水平**。整体平均值不能代表各分组情况，分组结论和整体平均值结论可能会大相径庭。

> 整体平均值是在数据呈均匀分布或者正态分布的情况下才会有意义，如果忽略整个数据的分布情况，只提平均值，其实是没有意义的。

## 重要的数据往往只占小部分——二八法则

> 能否通过弥补 20% 的质量缺口去获得 80% 的收益（或者避免 80% 的客户投诉）？

**定义**：**二八法则**又名**帕雷托法则**，简单来说，就是 20% 的人占了 80% 的资源，剩下 80% 的人分最后 20% 的资源，
背后规律是 [幂律分布](https://zh.wikipedia.org/wiki/%E5%B8%95%E7%B4%AF%E6%89%98%E5%88%86%E5%B8%83) ，
越是人工创造的越是满足二八法则。

二八定律其实揭示的是，**从某种意义上讲，这世界从来都不是平衡的，基本上区分为重要的少数和琐碎的多数**。

所以在日常生活里，不要把所有事都放在同一个优先级上，而是学会用帕累托法则去看待问题，找出最重要的 20% 的问题，并最优先解决。

同时，你也要留个心眼：为什么这 20% 的问题对你来说最为重要？

对应到工作中，你可以多想想以下几个问题。

- 在你一天的工作分配当中，由于 80% 的工作都是日常反馈沟通，你是否安排了自己最清醒的时间去处理最重要的 20% 工作？
  
- **能否通过弥补 20% 的质量缺口去获得 80% 的收益（或者避免 80% 的客户投诉）？**
  
- 在最有效的 20% 的时间内，如何引导团队做出 80% 的相关分析？

投入时长和产出收益往往不成正比的，把 20% 的投入换取 80% 的产出收益才是最划算的。
**要爬取和处理的数据虽然很多，但是里面往往只有20%是核心数据，这些20%就可以满足80%的客户需求。优先把握住这20%的数据比另外80%的数据要重要得多。**

## 随机样本越多越接近预期——大数定律

**定义**：**大数定律**是由瑞士数学家雅各布·伯努利提出来并验证的，它的核心逻辑是说当**随机事件发生的次数足够多时，发生的频率才会趋近于预期的概率**。

"大数定律"说的是当随机事件发生的次数足够多时，发生的频率就趋近于预期的概率。对于一件事情，你需要持续不断努力，才可以达到你的期望值。

## 少数随机样本是无法预估的——小数陷阱

**定义**：一个典型的对大数定律的误读，叫赌徒谬误，也叫做“小数陷阱”。

"小数陷阱"则告诉你，每个事件都是独立的事件，“否极泰来”需要足够多的次数才可能出现，做事情要少一些“赌徒心态”，多一些平常心，不要盲目跟风和下注才能获得最后的成功。

## 信息越透明，越塔尖的个体越吸附资源——拉普拉斯分布

**定义**：在信息越透明和市场竞争的情况下，**越塔尖的个体越具有资源吸附能力**，工资、房价、股票都会符合一个特点。

![拉普拉斯分布](img/data-thinking/img_8.png)

重点在于信息**越**透明，**越**塔尖的个体**越**具有资源吸附的能力中的三个"越"字，表示了一种**趋势**，
可以从图片看到从黄色线的趋势变成了蓝色线的趋势，会从正态分布变为拉普拉斯分布。

那我们怎样去理解这个拉普拉斯分布呢？

它经常用在金融领域，尤其是衡量股票收益的时候。起初我们认为股票收益率是服从正态分布，但是由于股票价格波动与时间变化有关，有波动聚集性，最后实际股票的收益率都是符合拉普拉斯分布的，也就是赚大钱的日子其实特别集中，余下的都是赚小钱的日子。

举个买房例子，看看拉普拉斯分布如何知道？

如果你所在的城市是三四线城市，那么房价的分布大概率会呈正态分布。那么在这种情况下你要投资买房就可以选择价格在曲线腰部的房子，
这种房子的房价将来涨跌以及抗风险性都比较适中。

而如果你准备买大城市里的房子，情况就不一样了。因为对于一线城市的房价而言，大概率是呈拉普拉斯分布的，
这也就意味着越贵的房子周边资源越好，进而这些房子将来增值空间越大。那我们买房子的时候就应该买资源最好的最贵的房子，未来的收获也最大。

## 实际数据会比预期数据更接近平均值——均值回归

**定义**：统计学上有一个现象叫“均值回归”，意思就是实际发生的数据比我们理论上的预测更加接近平均值，
整体趋势上会慢慢向一个平均值发展。

用大白话说就是 **"现实生活不一定有我们在算法当中预测得那么好"**。

谈到回归，我拿我们非常熟悉的身高来给你举个例子。根据达尔文进化论，子代会越来越基于父代进行进化。
也就是说理论上父母越高，孩子也会越来越高。而一般高个子的女孩子只会找比自己身高更高的男生结婚，生的孩子也应该更高。

以此类推，理论上经过千百年的进化，人类应该分成巨人族和矮人族才对。但我们都知道现实情况其实不是这样的，人类并没有分成巨人族和矮人族。
但是现实中并没有。这就是均值回归现象。

## 总结

最后在对齐一遍**数据思维基础共识**：

- **[平均值不一定能够代表整体水平](#平均值并不一定能代表整体水平——辛普森悖论)**
  
- **[重要的数据往往只占小部分](#重要的数据往往只占小部分——二八法则)**
  
- **[随机样本越多越接近预期](#随机样本越多越接近预期——大数定律)**
  
- **[少数随机样本是无法预估的](#少数随机样本是无法预估的——小数陷阱)**
  
- **[信息越透明，越塔尖的个体越吸附资源](#信息越透明，越塔尖的个体越吸附资源——拉普拉斯分布)**

- **[现实会比预期更接近平均值](#实际数据会比预期数据更接近平均值——均值回归)**

这些基本思维将会是后续数据分析和思维框架的基石。

> 由于篇幅的限制，只选择了一些对于我们现阶段比较重要的基础思维。如果感兴趣，可以通过[参考资料](#参考资料)了解更多。

## 参考资料
[《数据分析思维课》01 | 平均值：不要被骗了，它不能代表整体水平](https://time.geekbang.org/column/article/400764)

[《数据分析思维课》02 | 大数定律与小数陷阱：生活是随机还是有定数的？](https://time.geekbang.org/column/article/401316)

[《数据分析思维课》05 | 直方图与幂分布：为什么全世界1%的人掌握着50%的财富？](https://time.geekbang.org/column/article/404779)

[《数据分析思维课》06 | 数据分布：房子应该是买贵的还是买便宜的？](https://time.geekbang.org/column/article/405241)

[《数据分析思维课》11 | 因果倒置：星座真的可以判定你的性格吗？](https://time.geekbang.org/column/article/409828)

[《数据分析思维课》13 | 趋势分析与回归：父母高，孩子一定高么？](https://time.geekbang.org/column/article/412094)