归一化是一种常见的数据预处理方法,用于将数据转换到统一的尺度,以便于比较和分析。以下是几种常见的归一化公式:
Min-Max归一化
将数据线性映射到[0,1]或者[-1,1]的区间内。
公式:$x_{new} = \frac{x - x_{min}}{x_{max} - x_{min}}$
其中,$x_{new}$代表归一化后的值,$x$代表原始值,$x_{min}$和$x_{max}$分别代表数据集的最小值和最大值。
Z-Score归一化
通过计算原始数据与均值的偏差来标准化数据,使数据的均值为0,标准差为1。
公式:$x_{new} = \frac{x - \mu}{\sigma}$
其中,$x_{new}$代表归一化后的值,$x$代表原始值,$\mu$代表原始数据的均值,$\sigma$代表原始数据的标准差。
对数函数转换
将数据转换为以10为底的对数形式。
公式:$y = \log10(x)$
其中,$y$为转换后的值,$x$为转换前的值。
向量归一化
将向量的模(或长度)变为1,同时保持其方向不变。
对于任意非零向量$v = (x_1, x_2, ..., x_n)$,其归一化的计算公式为:
$v' = \frac{v}{\|v\|}$
其中,$v'$是归一化后的向量,$\|v\|$是向量$v$的模(或长度),计算公式为:$\|v\| = \sqrt{x_1^2 + x_2^2 + ... + x_n^2}$。
百分比归一化
将数据转换为0到100%之间的值。
公式:$wi = \frac{mi}{m_1 + m_2 + ... + m_n} \times 100\%$
其中,$wi$代表归一化后的值,$mi$代表每个数据点,$m_1 + m_2 + ... + m_n$代表所有数据点的总和。
这些方法可以根据具体应用场景和数据特性选择使用,以达到最佳的数据处理效果。