1) Naive Bayesian classifier
朴素贝叶斯分类器
1.
It transforms a Naive Bayesian classifier into a problem of search for a division line that fits the text data set distribution in a constructed two-dimensional space.
本文提出了一种基于朴素贝叶斯和遗传算法的两类文本分类方法,该方法将朴素贝叶斯分类器变换为在二维空间中的一条分割线,在分割线临近的文本分类不可靠区间内,利用遗传算法搜索最优文本分割线,从而使分类器达到最佳性能。
2.
A new flexible augmented naive Bayesian classifier(FAN) algorithm based on the minimum description length(MDL) rule is proposed.
提出了一种新颖的基于最小描述长度(Minimum Description Length,MDL)准则的灵活的增强朴素贝叶斯分类器(Flexible Augmented Naive Bayesian classifier,FAN)算法。
3.
Naive Bayesian classifier (NB) is a simple and effective classification model,but it is unable to make the best of the information of the training dataset,thus affecting its classification performance.
朴素贝叶斯分类器(Naive Bayesian classmer,NB)是一种简单而有效的分类模型,但这种分类器缺乏对训练集信息的充分利用,影响了它的分类性能。
2) naive Bayes classifier
朴素贝叶斯分类器
1.
In this paper,firstly,the process of learning and classing is presented on naive Bayes classifier with complete data sets.
操作风险数据积累比较困难,而且往往不完整,朴素贝叶斯分类器是目前进行小样本分类最优秀的分类器之一,适合于操作风险等级预测。
2.
Based on naive bayes classifier having solid theory foundation and high accuracy rate of classification,the classical naive bayes classifier was firstly improved by using term weight function in text,and then the patent categorization was implemented.
朴素贝叶斯分类器理论基础好,分类精度高。
3) Nave Bayes classifier
朴素贝叶斯分类器
1.
This paper introduces a weight-based Nave Bayes classifier,which can not only improve the calculation of the prior probability of words in the documents,but also increase the impact of the weight of words on calculation.
本文提出了一种基于权重的朴素贝叶斯分类器,不仅改进了文本中词条的先验概率计算方式,并增加了词条的权重对计算的影响。
2.
The Bayes classifier obeying the conditional independence assumption of the object s eigenvalue,namely the nave Bayes classifier,is designed,and the method of its classification error estimation is proposed.
给出一类遵从特征观察量独立性假设的贝叶斯分类器即朴素贝叶斯分类器设计,并给出朴素贝叶斯分类器的分类误差估计方法。
3.
A nave Bayes classifier for PPIs prediction with features including protein sequence profile and residue accessible surface area is proposed.
基于朴素贝叶斯分类器对属性条件独立性的要求,构建了由蛋白质序列谱和溶剂可及表面积组成的蛋白质相互作用特征模型。
4) Naive Bayes Classifier(NBC)
朴素贝叶斯分类器(NBC)
5) chain augmented na?ve Bayesian classifier
链状朴素贝叶斯分类器
1.
An automatic Chinese text categorization method based on n-gram language model and chain augmented na?ve Bayesian classifier is proposed.
本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。
6) generalized naive Bayes classifiers
广义朴素贝叶斯分类器
1.
Research on the method of processing empty value based on generalized naive Bayes classifiers;
基于广义朴素贝叶斯分类器的空值处理方法
补充资料:贝叶斯分类器
在具有模式的完整统计知识条件下,按照贝叶斯决策理论进行设计的一种最优分类器。分类器是对每一个输入模式赋予一个类别名称的软件或硬件装置,而贝叶斯分类器是各种分类器中分类错误概率最小或者在预先给定代价的情况下平均风险最小的分类器。它的设计方法是一种最基本的统计分类方法。
最小错误概率贝叶斯分类器 把代表模式的特征向量x分到c个类别(ω1,ω2,...,ωc)中某一类的最基本方法是计算在 x的条件下,该模式属于各类的概率,用符号P(ω1|x),P(ω2|x),...,P(ωc|x)表示。比较这些条件概率,最大数值所对应的类别ωi就是该模式所属的类。例如表示某个待查细胞的特征向量 x属于正常细胞类的概率是0.2,属于癌变细胞类的概率是0.8,就把它归类为癌变细胞。上述定义的条件概率也称为后验概率,在特征向量为一维的情况下,一般有图中的变化关系。当 x=x*时,P(ω1|x)=P(ω2|x)对于 x>x*的区域,由于P(ω2|x)>P(ω1|x)因此x属ω2类,对于x*的区域,由于P(ω1|x)>P(ω2|x),x属ω1类,x*就相当于区域的分界点。图中的阴影面积就反映了这种方法的错误分类概率,对于以任何其他的 x值作为区域分界点的分类方法都对应一个更大的阴影面积,因此贝叶斯分类器是一种最小错误概率的分类器
一般情况下,不能直接得到后验概率而是要通过贝叶斯公式
进行计算。式中的P(x│ωi)为在模式属于ωi类的条件下出现x的概率密度,称为x的类条件概率密度;P(ωi)为在所研究的识别问题中出现ωi类的概率,又称先验概率;P(x)是特征向量x的概率密度。分类器在比较后验概率时,对于确定的输入x,P(x)是常数,因此在实际应用中,通常不是直接用后验概率作为分类器的判决函数gi(x)(见线性判别函数)而采用下面两种形式:
对所有的c个类计算gi(x)(i=1,2,...,c)。与gi(x)中最大值相对应的类别就是x的所属类别。
最小风险贝叶斯分类器 由于客观事物的复杂性,分类器作出各种判决时的风险是不一样的。例如将癌细胞误判为正常细胞的风险就比将正常细胞误判为癌细胞的风险大。因此,在贝叶斯分类器中引入了风险的概念。在实际应用中根据具体情况决定各种风险的大小,通常用一组系数Cij来表示。Cij表示分类器将被识别样本分类为ωi,而该样本的真正类别为ωj时的风险。设计最小风险分类器的基本思想是用后验概率计算将 x分类为ωi的条件风险
比较各Ri(x)的大小,与最小值对应的类别是分类的结果。评价这种分类器的标准是平均风险,它的平均风险最小。在实际应用时,后验概率是难以获得的,根据模式类别的多少和Cij的取值方式,可设计出各种分类器,例如模式为两类时,判别函数为
如果选择C11和C22为零,C12和C21为1,它就是两类最小错误概率分类器。实际上,最小错误概率分类器是最小风险分类器的一种特殊情况。
设计贝叶斯分类器的关键是要知道样本特征 x的各种概率密度函数。条件概率密度函数为多元正态分布是研究得最多的分布。这是由于它的数学表达式易于分析,在实际应用中也是一种常见的分布形式。经常使用参数方法来设计正态分布的判别函数。
参考书目
福永圭之介著,陶笃纯译:《统计图形识别导论》,科学出版社,北京,1978。
最小错误概率贝叶斯分类器 把代表模式的特征向量x分到c个类别(ω1,ω2,...,ωc)中某一类的最基本方法是计算在 x的条件下,该模式属于各类的概率,用符号P(ω1|x),P(ω2|x),...,P(ωc|x)表示。比较这些条件概率,最大数值所对应的类别ωi就是该模式所属的类。例如表示某个待查细胞的特征向量 x属于正常细胞类的概率是0.2,属于癌变细胞类的概率是0.8,就把它归类为癌变细胞。上述定义的条件概率也称为后验概率,在特征向量为一维的情况下,一般有图中的变化关系。当 x=x*时,P(ω1|x)=P(ω2|x)对于 x>x*的区域,由于P(ω2|x)>P(ω1|x)因此x属ω2类,对于x
一般情况下,不能直接得到后验概率而是要通过贝叶斯公式
进行计算。式中的P(x│ωi)为在模式属于ωi类的条件下出现x的概率密度,称为x的类条件概率密度;P(ωi)为在所研究的识别问题中出现ωi类的概率,又称先验概率;P(x)是特征向量x的概率密度。分类器在比较后验概率时,对于确定的输入x,P(x)是常数,因此在实际应用中,通常不是直接用后验概率作为分类器的判决函数gi(x)(见线性判别函数)而采用下面两种形式:
对所有的c个类计算gi(x)(i=1,2,...,c)。与gi(x)中最大值相对应的类别就是x的所属类别。
最小风险贝叶斯分类器 由于客观事物的复杂性,分类器作出各种判决时的风险是不一样的。例如将癌细胞误判为正常细胞的风险就比将正常细胞误判为癌细胞的风险大。因此,在贝叶斯分类器中引入了风险的概念。在实际应用中根据具体情况决定各种风险的大小,通常用一组系数Cij来表示。Cij表示分类器将被识别样本分类为ωi,而该样本的真正类别为ωj时的风险。设计最小风险分类器的基本思想是用后验概率计算将 x分类为ωi的条件风险
比较各Ri(x)的大小,与最小值对应的类别是分类的结果。评价这种分类器的标准是平均风险,它的平均风险最小。在实际应用时,后验概率是难以获得的,根据模式类别的多少和Cij的取值方式,可设计出各种分类器,例如模式为两类时,判别函数为
如果选择C11和C22为零,C12和C21为1,它就是两类最小错误概率分类器。实际上,最小错误概率分类器是最小风险分类器的一种特殊情况。
设计贝叶斯分类器的关键是要知道样本特征 x的各种概率密度函数。条件概率密度函数为多元正态分布是研究得最多的分布。这是由于它的数学表达式易于分析,在实际应用中也是一种常见的分布形式。经常使用参数方法来设计正态分布的判别函数。
参考书目
福永圭之介著,陶笃纯译:《统计图形识别导论》,科学出版社,北京,1978。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条