机器学习复习之支持向量机SVM
机器学习复习之支持向量机SVM[toc] 一、线性SVM1. 核心原理假定有一个二分类数据集 $D={X_i, Y_i}_{i=1}^N$ ,线性是一种用于线性可分数据的分类算法,其核心思想是找到一个最优的线性决策边界(超平面),能够最大程度地将不同类别的样本分开。 超平面:$w^Tx+b=0$ ,其中 $w$ 为法向量,该公式可以由法向量正交于该超平面推导得出。 点 $x_i$ 到超平面的距离$$d = \frac{|w^Tx_i+b|}{||w||}$$ 线性可分性:若存在 $w$ 和 $b$,使得$$\begin{aligned}&w^Tx_i+b>0,\text{if}\ y_i = +1 \ &w^Tx_i+b < 0, \text{if}\ y_i = -1 \\rightarrow \quad&y_i(w^Tx_i+b)>0\end{aligned}$$ 间隔Margin: 是指超平面到最近数据点的距离 所以linear...
Spark Mllib(2)
数据标准化方法
Spark MLlib(1)
TF-IDF & Word2Vec
生存分析实战
这是一篇利用Python进行的生存分析实践博客
