# 数据敏感度

> 对数据敏感的起点是“注意力” —— 要有意识的去感知和记录一些数据，做到“心中有数”是对数据敏感的基础。

**数据敏感度是整个数据思维最底层的基石，重点在于了解业务和熟悉数据。**

![数据敏感度方法论](img/data-thinking/数据敏感度方法论.jpg)


> **（重点）数据敏感度方法论：**
> 1. **记住业务数值，培养敏感基础**。
> 2. **记住"行业值"，用作数据标准**。
> 3. **清楚指标计算，清晰指标意义**。

## 1. 什么是数据敏感度？
在讨论之前，我们需要对齐 *数据敏感度* 的概念。

*数据敏感度*是一种利用数据发现问题以及了解数据意义的能力，通俗来讲，就是一种**面对数据的直觉**。
具体可以拆解为对数据的**1）感知**、**2）计算**、**3）理解**的能力：

![数据明感度组成](img/data-thinking/数据敏感度组成.jpg)

### 1）感知：从工作场景中发现数据

在文章开头我们就提及了，*"心中有数"是对数据敏感对基础。* 其实很好理解，**数据敏感度** 中的 *敏感* 顾名思义就是，
对于数据的价值，异常情况能够快速的发现。发现问题的基础是知道什么是问题，所以发现数据价值和异常的基础，就得先知道数据。

**举个例子：现在你问某个爬虫近七天的名单推送量有多少？请求成功率有多少？库内数据新鲜度如何？
能否说出大概的数值量级或范围？**

这就是从工作场景中发现数据，如果你能很轻松地说出上述问题的数据，那肯定是非常棒的；即使不知道，你肯定也知道在 [Venom](http://120.76.73.216:4096/overview),
[DataValley](http://120.25.248.253:8888/overview) 以及拓客防御塔钉群中可以找到相应数据。
知道数据和知道在哪里找到数据都是OK的，两者差别只在于，如果现在现在出现一个问题数据，你能不能一眼就发生端倪。

### 2）计算：能依据某种规则计算得到某个指标

重点在于知道指标是怎么算出来的。

**举个例子：上一个问题中的库内数据新鲜度怎么算出来的？告警群中的 存疑爬虫 是怎么判定一个爬虫是存疑爬虫的？**

只有在感知的基础上，才能做到怎样设计一个指标，怎样算出一个指标。只有了解平常的爬虫业务数据，才能有"参考值"作为标准，
从而制定指标以判断一个爬虫是否存疑。反过来，只有知道一个爬虫存疑的指标的计算规则，才能快速地定位一个爬虫可以存疑的地方。

### 3）理解：能明白数据表达的意义

能明白数据表达的意义。
比如从数据中发现规律、探索数据间的关系、通过数据发现业务问题等；

这个更取决于个人对业务、对市场对理解能力。不在本文讨论的重点了。

## 如何培养数据敏感度？

### 1）记住业务数值，培养敏感基础

**记住而非知道**。得记住数值本身，而非仅仅知道有这个数据存在。

对应上文的 *1）感知：从工作场景中发现数据*，平时有意识的留意数据是培养数据敏感度的基础。
正所谓"读书破万卷，下笔如有神"。心中有数据才能做到水到渠成地感知数据的异常或价值。

具体就是平常留意相关业务数据，爬虫数据。如名单推送量，请求成功率，失败原因的分布情况。更进一步便是深入了解业务本身，
如库内主体的行业分布情况，具体行业企业数据的变化情况等。虽然这些看起来跟爬虫开发工作似乎没有必要的联系，
但是业务本身的数据也会成为数据感知的一部分。类似于对于行业数据的敏感，可能会让你发现爬虫异常数据的端倪。

### 2）记住'行业值'，用作数据标准

比如某数值的均值或者范围等，工作中则还会关注业务数据、行业数据(通常关注均值、竞品或者TOP产品的数据)。

具体就例如关注工商过去一年中，工商系统中平均每月的新增主体数有多少？所在地区的分布比例等。
这些"参考数据"是用来分析爬虫质量的一个很好的数据标准。与第 1）点不同的是，第 1）点更关注于业务本身我们自己的数据，
而本节更注重于行业、竞品等的外部数据。

 [1）记住业务数值，培养敏感基础](#1）记住业务数值，培养敏感基础)和 [2）记住'行业值'，用作数据标准](#2）记住'行业值'，用作数据标准)是培养数据敏感度的基础，
 "直觉"本身便是一种潜意识中模糊的逻辑推断，积攒数据基础才能有推断的依据来源。

### 3）了解指标计算，清晰指标意义

**过程不只结果**。清楚整个指标计算的依据和过程，而非仅仅知道指标结果。

## 本文重点

最后在重复放一遍，应用这个方法论，让逻辑变成直觉，吾日三省：

**（重点）数据敏感度方法论：**
1. **记住业务数值，培养敏感基础**。
2. **记住"行业值"，用作数据标准**。
4. **了解指标计算，清晰指标意义**。

## 参考资料

[浅谈"数据敏感度"](https://www.cnblogs.com/dataxon/p/12552337.html)
