# 数据思维陷阱

> 本文档会介绍一些数据分析思维中的常见的思维陷阱。如果说[数据基础思维](数据基础思维.md)、[数据基础算法](数据基础算法.md)是提供了基本思维去进行分析，
> 那么本文档就是揭识了常见的数据思维陷阱。两者结合，一个提供进攻的矛，一个提供防守的盾。

![常见思维陷阱](img/data-thinking/常见思维陷阱.jpg)

[数据基础思维](数据基础思维.md)讲了很多数据分析的基本思维，在有了这些基本思维之后，
其实还有很重要的一步是确定数据背后的逻辑，否则分析数据就和算命一样， 看了下手相就直接告诉你一个结论。
比如以下根据“数据分析”形成的耳熟能详的结论，你想想看究竟有多少是值得推敲的呢：

- 学术派：打篮球会让人长高，喝咖啡能长寿，不吃早饭会导致肥胖；

- 网红派：爱笑的女孩子通常运气都不会太差（很暖心，对吧）。

这些结论感觉上都很有道理，甚至很多还有一些数据统计的报告来作为佐证，但其实仔细看背后的数据和逻辑，
往往缺乏依据或者会出现因果倒置、因果无关的这种情况。
这种对于数据的用法其实是最危险的，因为这里面的问题往往隐藏得非常巧妙，你如果不深究其中的逻辑，
往往会被数据所欺骗从而得出错误的结论，甚至指导你进行一些错误的行为。
所以在这文档中，为你总结了最常见的 6 种误用数据导致错误因果结论的陷阱，希望你在今后的工作和学习当中，不要因为学了分析数据，最后却在分析数据时被数据所欺骗。

**常见思维陷阱**：
- **相关因果倒置** —— 鸡叫导致天明
  
- **相关性而非因果** —— 吸烟真的致癌么
  
- **以偏概全** —— 伯克松悖论
  
- **操控数据范围** —— 先开枪再画靶
  
- **时间长度不足** —— 替代终点问题

### 相关因果倒置 —— 鸡叫导致天明

***

典型的因果倒置就是天亮了鸡就开始打鸣，但是我们不能说是因为鸡打鸣导致了天亮。

但是实际的应用当中，我们往往会忽略这个逻辑。
比如，我们在一些医学统计上会看到说不吃早饭会导致人肥胖，甚至还有大量的统计数据表明这些肥胖的人都没有吃早饭。

问题是，数据的确是同步发生的，但是不代表这些数据之间有因果关系。而且有可能会出现因果倒置——肥胖的人胖所以早上不饿，所以他不吃早饭。而比较瘦的人自身代谢比较快，晚上消耗多，早上就会比较饿，所以他要吃早饭。

> 所以当我们看到数据结果的时候，一定要仔细推敲其中的业务逻辑，同时进行反向测试。

### 相关性而非因果 —— 吸烟真的致癌么

***

因果是一个非常强的逻辑，我们初中学过因果叫`充分条件`，而不是`必要条件`。
也就是说，因果意味着我们如果做了 A，那么一定会导致 B 的发生。
这在数据的领域里面其实是非常难证明的，我们可以通过数据实验去证明 B 发生和 A 没有关系，
但是很难证明 A 就是 B 的发生的`充分条件`也就是原因，
因为有可能他们之间只是数据相关关系，而不是因果关系。

是不是感觉有点晕？没关系，现在我用一个你非常熟悉的例子，再给你解释一下。我们经常能看到吸烟会致癌这个理论。但是吸烟真的能致癌吗？

从健康程度来讲，吸烟的确是有害于健康的。但是从科学角度上来讲，尽管医学家、统计学家在过去的几十年里做了非常多的试验，但到目前为止，
我们还没有确凿的统计学证据可以说明吸烟致癌。因为致癌的因素太多了，你无法判断吸烟能够直接导致癌症。
现代统计学的奠基人费舍尔对香烟会导致肺癌结论表示了强烈的质疑，他只确认了吸烟和患有肺癌之间有相关性，
但是从科学的角度上来讲，的确不能说因为吸烟，所以会导致肺癌。
看上去数据是正确的，但是如何解释数据其实非常需要动脑子。
**两件事情虽然相关，但是往往无法说明它们之间有因果关系**。
而因为我们的大脑容易记住有逻辑性的东西，所以我们经常把相关的东西“套上”一个因果的外壳，但这其实是不对的。

> 所以以后在工作和生活中，不要轻易下因果关系的结论，相关并非因果

### 以偏概全 —— 伯克松悖论

***

`伯克松悖论`指的是当不同个体被纳入研究样本的机会不同时，研究样本中的两个变量 X 和 Y 表现出统计相关，而总体中 X 和 Y 却不存在这种相关性。

听上去是不是有点拗口？没关系，我举两个具体例子来帮助你理解。

第一个例子，著名的“海军与平民死亡率”的例子。在 1898 年“美西战争” 期间

- 美国海军的死亡率是 9%
  
- 同期纽约市市民的死亡率为 16%。

后来海军征兵部门就拿这个数据跟大家讲，待在部队里其实比大家待在家中更加安全。
这逻辑肯定是错误的，但是错误不在具体数据，而是这两组数据其实没有什么可比性。
因为海军主要是年轻人，他们身强体壮、不会出现太多身体疾病；而纽约市民里面包含了新出生的婴儿、老年人、病人等等，这些人无论放在哪里，他的死亡率都会高于普通人。所以，参军不能说比大家待在家中更加安全，但反过来你也无法证明待在家中就比参军更安全，因为比对的对象不是在同一个人群里，这就是伯克森悖论。

第二个例子，现在我们有一个用户访谈的数据结果：

- 购买某品牌产品的 100 人中，有 72% 的人说在一个月内看过该品牌的广告 ；

- 未购买商品的 300 人中，有 76% 的人说一个月内没看到过这个品牌的广告。

通过这个数据我们能看到什么呢？我们可以下结论说是广告提高了我们的用户转化率吗？这是不可以的，因为实际购买的人会对广告更有印象，而没有购买的人也许也看了广告，只不过他没有印象而已。因为统计范围不同，所以不能够根据这个数据给出转化率比较高的结论，然后大肆提高广告投放。

> 看上去有因果关系的数据，还要看数据集的比对性才可以给出数据最终的结果。
 
### 操控数据范围 —— 神枪手谬误

***

**神枪手谬误**：指的是先开枪再画靶，枪打到哪里就把靶位画在哪里，看上去就是百发百中了。

很多统计结果其实是被操纵的，他们把某些机缘巧合之下比较好的结果的相关数据放到一起，去证明一个不可能的事情，但是如果你再换一组数据，那么你就没有办法证明这个因果关系。

例如曾经在国内炒的火爆的全国牙防组故事就和这样的数据有关。在海外也有一些小众的牙膏制造商，为了证明自己的牙膏比其他牙膏有效果，只把好的结果公之于众。包括很多“伪学术论文”引用的数据，也不是多次统计的结果，而是选取最优的结论给出来。

> 在看最终数据分析报告的时候，一定要看它的数据是不是先有枪眼再画靶子，或者先找到满意的结果再给你看统计数据，我们需要的是通过大量的随机样本给出的结果。

### 时间长度不足 —— 替代终点问题

***

一些数据在分析和统计的时候，由于时间长度不够，会造成数据统计的结果不准确。
这个在学术上我们叫做“替代终点问题”（ surrogate endpoint problem）。

比如我们要检测某种药物是不是可以延年益寿，这其实就需要投入大量的时间和资金，因为我们必须得等到人们去世以后才能知道他们的寿命。

所以对于现在各种各样的保健品，如果它的宣传的作用是可以延年益寿的话，那大部分都是收你“智商税”的，因为这种测试非常难以完全实现。
即使服用这些药物的人最后长寿了，那也不能够代表这两种之间存在着因果关系，很有可能只是前面讲到的相关性。

同理，你看这么多风险投资人在选择创业公司的时候，其实是靠大的方向和辨识团队来进行投资，而不是靠具体某些数据来表明这个创业公司是否靠谱。
因为相对一个创业公司来讲，公司的成立时间太短了，公司的数据不代表趋势，这就是替代终点问题。

## 总结

学了这些场景以后，我们回过头来再看看开头的那些问题。

- 打篮球真的能让人长高吗？这很有可能是因为长高的人都会去打篮球，而不是打篮球让人长高——`因果倒置`。

- 喝咖啡可以长寿？常喝咖啡的人一般都是白领阶级，他们的营养供给更高，所以他们可以长寿，而不是因为咖啡让他们长寿——`相关性而非因果关系`。
  
- 吃不吃早饭其实和你肥不肥胖没有什么关系，运动健康才和你的肥胖有关系——`相关性而非因果关系`。
  
- 爱笑的女孩子通常运气都不会太差？爱笑的女孩其实运气也有差的，最后她就不笑了，事实是因为运气好的女孩她们才会爱笑——`因果倒置`。

重新回顾一遍**常见思维陷阱**：
- **相关因果倒置** —— 鸡叫导致天明
  
- **相关性而非因果** —— 吸烟真的致癌么
  
- **以偏概全** —— 伯克松悖论
  
- **操控数据范围** —— 先开枪再画靶
  
- **时间长度不足** —— 替代终点问题

在看到数据分析结果和进行数据分析时，都要时刻提醒自己，规避这些常见的思维陷阱。

## 参考资料
[《数据分析思维课》11 | 因果倒置：星座真的可以判定你的性格吗？](https://time.geekbang.org/column/article/409828)