朴素贝叶斯算法
联合概率和条件概率 联合概率:包含多个条件,且所有条件同时成立的概率 记作:𝑃(𝐴,𝐵) 条件概率:就是事件A在另外一个事件B已经发生条件下的发生概率 记作:𝑃(𝐴|𝐵) 特性:P(A1,A2|B) = P(A1|B)P(A2|B) 注意:...
联合概率和条件概率 联合概率:包含多个条件,且所有条件同时成立的概率 记作:𝑃(𝐴,𝐵) 条件概率:就是事件A在另外一个事件B已经发生条件下的发生概率 记作:𝑃(𝐴|𝐵) 特性:P(A1,A2|B) = P(A1|B)P(A2|B) 注意:...
在有监督(supervise)的机器学习中,数据集常被分成2~3个,即:训练集(train set),验证集(validation set),测试集(test set)。 训练集:学习样本数据集,通过匹配一些参数来建立一个分类器。建立一种分...
使用 pandas.read_csv() 读取文件时出现了标题中的错误,搜索到两片文章,其中一个说是路径包含中文的原因。 https://blog.csdn.net/ArcheriesYe/article/details/77992412 ...
Windows下的文件目录路径使用反斜杠“\”来分隔。但是,和大多数语言一样,Python代码里面,反斜杠“\”是转义符,例如“\n”表示回车、“\t”表示制表符等等。这样,如果继续用windows习惯使用“\”表示文件路径,就会产生歧义。...
20180926更新 K近邻算法是非常直观的机器学习模型,我们可以发现K近邻算法没有参数训练过程,也就是说,我们没有通过任何学习算法分析训练数据,而只是根据测试样本训练数据的分布直接作出分类决策。因此,K近邻属于无参数模型中非常简单一种。 ...
在sklearn中,估计器(estimator)是一个重要的角色,分类器和回归器都属于estimator,是一类实现了算法的API 用于分类的估计器: sklearn.neighbors k-近邻算法 sklearn.naive_bayes...
监督学习 分类 k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络 回归 线性回归、岭回归 标注 隐马尔可夫模型 无监督学习 聚类 k-means 监督学习 监督学习(英语:Supervised learning),可以由输入数...
PCA-主成分分析 本质:PCA是一种分析、简化数据集的技术 目的:是数据维数压缩,尽可能降低原数据的维数(复杂度),损失少量信息。 作用:可以削减回归分析或者聚类分析中特征的数量 步骤 初始化PCA,指定减少后的维度 调用fit_tran...
原因 冗余:部分特征的相关度高,容易消耗计算性能 噪声:部分特征对预测结果有负影响 特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值、也不改变值,但是选择后的特征维数肯定比选择前小,毕竟我们只...
归一化 sklearn归一化API: sklearn.preprocessing.MinMaxScaler 步骤 实例化MinMaxScalar 通过fit_transform转换 缺点: 在特定场景下最大值最小值是变化的,另外,最大值与最...