Data science basic

2026.03.23 网络 0 评

符号定义

· $x, y, z$：数据对象、向量、点
· $x_u$：对象 $x$ 的第 $u$ 个属性值
· $m$：对象/记录总数
· $n$：属性/维度总数
· $S$：名义属性的取值个数
· $U$：训练记录集合
· $U_s$：分裂后的第 $s$ 个子集
· $|U|$：集合 $U$ 的记录数
· $c_k$：第 $k$ 个类别
· $p(c_k)$：属于类别 $c_k$ 的比例
· $\log_2$：以 2 为底的对数

二值相似度

定义：对二值向量 $x, y$，记

$$ f_{11} = \#\{u : x_u=1, y_u=1\} $$

$$ f_{10} = \#\{u : x_u=1, y_u=0\} $$

$$ f_{01} = \#\{u : x_u=0, y_u=1\} $$

$$ f_{00} = \#\{u : x_u=0, y_u=0\} $$

总属性数为

$$ f_{11}+f_{10}+f_{01}+f_{00} $$

$$ \mathrm{SMC} = \frac{f_{11}+f_{00}}{f_{11}+f_{10}+f_{01}+f_{00}} $$

$$ \mathrm{Jaccard} = \frac{f_{11}}{f_{11}+f_{10}+f_{01}} $$

余弦相似度

$$ \cos(x,y) = \frac{x \cdot y}{\|x\|\,\|y\|} $$

$$ x\cdot y = \sum_{u=1}^n x_u y_u $$

$$ \|x\| = \sqrt{\sum_{u=1}^n x_u^2} $$

距离度量

Euclidean distance：

$$ d(x,y) = \sqrt{\sum_{u=1}^n (x_u - y_u)^2} $$

Minkowski distance（$h \ge 1$）：

$$ d(x,y) = \left( \sum_{u=1}^n |x_u - y_u|^h \right)^{1/h} $$

特例：$h=1$（曼哈顿距离），$h=2$（欧氏距离）。

Supremum distance（$h = \infty$）：

$$ d_\infty(x,y) = \max_u |x_u - y_u| $$

加权距离：

$$ d(x,y) = \left( \sum_{u=1}^n w_u |x_u - y_u|^h \right)^{1/h} $$

归一化向量下的距离与余弦关系

若 $\|x\| = \|y\| = 1$，则

$$ d(x,y)^2 = 2\bigl(1 - \cos(x,y)\bigr) $$

文档权重（tf-idf）

$$ t'_{ij} = t_{ij} \log_2\left(\frac{m}{\mathrm{df}_i}\right) $$

其中 $t_{ij}$ 为词 $i$ 在文档 $j$ 中的频数，$m$ 为文档总数，$\mathrm{df}_i$ 为包含词 $i$ 的文档数。

基本统计量

均值：

$$ \bar{x} = \frac{1}{m}\sum_{i=1}^m x_i $$

样本方差：

$$ \sigma_x^2 = \frac{1}{m-1}\sum_{i=1}^m (x_i - \bar{x})^2 $$

标准差：

$$ \sigma_x = \sqrt{\sigma_x^2} $$

范围：

$$ \mathrm{range}(x) = \max_i x_i - \min_i x_i $$

相对频率：

$$ \mathrm{rel\_freq}(a_s) = \frac{\#\{i : x_i = a_s\}}{m} $$

众数：出现次数最多的值。
中位数：排序后中间值（奇数个）或中间两值的平均（偶数个）。

协方差与相关系数

协方差（样本）：

$$ \mathrm{cov}(x_u, x_v) = \frac{1}{m-1}\sum_{i=1}^m (x_{iu} - \bar{x}_u)(x_{iv} - \bar{x}_v) $$

杯子茶室

关注有趣的事物

Data science basic