贝叶斯公式:描述两个条件概率之间关系的数学公式-中文百科频道

简介

假设B是由相互独立的事件组成的概率空间{b1,b2,...,bn}。则P(A)可以用全概率公式展开：P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+...+P(A|Bn)P(Bn)。贝叶斯公式表示成：P(Bi|A)=P(A|Bi)P(Bi)/(P(A|B1)P(B1)+P(A|B2)P(B2)+...P(A|Bn)P(Bn))；常常把P(Bi|A)称作后验概率，而P(A|Bn)P(Bn)为先验概率。而P(Bi)又叫做基础概率。

贝叶斯公式看起来很简单，但是在自然科学领域应用范围及其广泛。同时理论本身蕴含了深刻的思想。

定义

贝叶斯的统计学中有一个基本的工具叫贝叶斯公式、也称为贝叶斯法则，尽管它是一个数学公式，但其原理毋需数字也可明了。如果你看到一个人总是做一些好事，则那个人多半会是一个好人。这就是说，当你不能准确知悉一个事物的本质时，你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。用数学语言表达就是：支持某项属性的事件发生得愈多，则该属性成立的可能性就愈大。

贝叶斯公式又被称为贝叶斯定理、贝叶斯规则是概率统计中的应用所观察到的现象对有关概率分布的主观判断（即先验概率）进行修正的标准方法。

所谓贝叶斯公式，是指当分析样本大到接近总体数时，样本中事件发生的概率将接近于总体中事件发生的概率。但行为经济学家发现，人们在决策过程中往往并不遵循贝叶斯规律，而是给予最近发生的事件和最新的经验以更多的权值，在决策和做出判断时过分看重近期的事件。面对复杂而笼统的问题，人们往往走捷径，依据可能性而非根据概率来决策。这种对经典模型的系统性偏离称为“偏差”。由于心理偏差的存在，投资者在决策判断时并非绝对理性，会行为偏差，进而影响资本市场上价格的变动。但长期以来，由于缺乏有力的替代工具，经济学家不得不在分析中坚持贝叶斯法则。

诊断模型

背景材料及引言

7岁女孩晓宇（化名）患急性支气管炎,在武汉市儿童医院住院4天，医生为确诊病情，为她抽血化验了32个指标，仅化验费就花费1130元。晓宇的家长质疑：医院如此看病，是过度检查。晓宇的接诊医生李志超说：“晓宇入院时,根据其家长自述病情，我认为孩子的情况有些严重,于是确定了上述化验指标”。该院四内科副主任李医生说：在当时情况下,李志超对患者的病情判断、以及开出的化验指标,都是有道理的。但如果是我接诊，会以自己的经验有针对性地进行化验检查,可能不会一下开出这么多化验指标。该科主任温玟莉主任医师称：一次抽血化验32个指标，是因为李志超当时怀疑孩子得了败血症，这样处理没有问题。但最后的检查结果并不是败血症，这只能说明李志超较年轻，缺乏丰富的临床经验，只有通过全面检查才能确诊。

在医患关系紧张，看病难、看病贵的现实情况下，我们应如何看待这个颇有争议的案例，医生看病是应该有针对性地开方,还是列出“算法式”的化验指标进行排查，本研究以贝叶斯公式为依据,从我国现行的医疗体制出发,对此类问题进行了有益的探索,以期建立一种定量化的诊断模型。

模型建立

设“患者有某种病症”为事件A，引起事件A的病因为样本空间Ω。B1，B2，…Bn为Ω的一个分划，即Bi∩Bj=Φ,i≠j,Ｕn i=1,Bi=Ω，并假定P(Bi)>0。由贝叶斯公式，由某病因引起事件A的概率为：

P（Bi|A)=P(Bi)P(A|Bi)/n/j=1P(Bj)P(A⌒Bj)(1)

公式(1)为医生有针对性地确诊提供了参考。

在疹疗过程中，医生要根据临床经验对各种病因Bi进行权衡。如果误诊，则有可能承担相应的医疗事故风险，相应的误诊概率记为P′(Bi)，并设因可能承担风险而承担的赔偿费用为C′i，患者承担医生针对病因Bi开出的疹疗方案的费用为Ci，于是在一次诊治过程中患者承担的平均费用为：

E(A)=n i=1P(Bi)Ci(2)

医生可能承担的平均赔偿金额为：

E′(A)=n i=1P′(Bi)C′i(3)

我们称该模型为诊断模型，并以δ1≤E(A)-E′(A)≤δ2为标准来衡量诊断方案的合理性，其中δ1≥0,δ2为某一不是特别大的正数。即患者所承担的平均医疗费用应比医生可能承担的平均赔偿金要多，但两者不应差别太大。

模型检验

我们以发热和上腹疼痛两个病症的相关数据对该模型进行检验。设原假设为H0：诊断是合理的。备择假设为H1，诊断合理与否需要进一步考查。

对表1和表2中相关数据的说明：中国2002年9月1日实施的《医疗事故处理条例》(以下简称《条例》)第五十条对赔偿项目和标准的规定与当地上一年度职工平均工资水平紧密挂钩，实行一次性结算。表1和表2中的工资水平参考了2007年2月湖北省第十届人民代表大会上的湖北省政府工作报告中的数据：2006年城镇居民人均可支配收入为9803元。

对发热症状中的“非典”及“某种类似非典的突发疾病”所可能带来的医疗事故我们以一级医疗事故中的死亡来处理，赔偿金额按《国家赔偿法》第二十七条的规定，检查费用以一次全身检查所需费用10000元进行计算；对“心肺功能缺陷”所可能带来的医疗事故我们按二级医疗事故处理，赔偿金额取202110，检查费用按心电图20元次，心脏彩超180元次,心肌酶谱60元次，肺检查80元次进行计算，药费以相应检查费用的0.8计算。对上腹疼痛症状中的“胃癌”及“心、膈等器官有病变”可能带来的医疗事故我们按二级医疗事故来处理,赔偿金额取202110，对B3的检查费用以B超40元次，催C120元次，胃镜(无痛)240元次进行计算，药费以相应检查费用的0.8计算，对B4的检查费用以胃镜(无痛)240元次和心脏彩超180元次进行计算，药费以相应检查费用的0.8计算。对两种症状中“其它”原因对患者可能造成的损害我们以《条例》第三十三条(三)的规定进行处理：在现有医学科学技术条件下，发生无法预料或者不能防范的不良后果的，不属于医疗事故。对两种症状中“其它”原因，患者的一次医疗费用我们取城镇居民人均可支配收入的5%，即490元进行计算。所有医疗费用均指一次诊治的检查费和药费之和,不包括后续治疗的费用。检查费用以武汉市某三级甲等医院的相关标准为参考。

表1发热症状诊断模型的相关数据注:B1=人体生理功能的正常表现：B4=某种类似非典的突发疾病；B5=心肺功能缺陷。表2上腹疼痛症状诊断模型的相关数据注，B2=胃溃疡、十二指肠溃疡；B4=心、膈等器官有病变。

设“发热症状”为事件A1，“上腹疼痛症状”为事件A2，由表1和表2的数据计算得(四舍五入精确到元)：

E（A1）=121，E′（A1）=187165；E（A2）=265，E′（A2）=22232

我们会发现原假设H0：诊断是合理的，是不成立的。这些数据告诉我们医生这个职业的确是个高风险的职业，在中国建立医疗责任保险制度有着必要性与迫切性。

模型评价

该模型在合理假设的基础上,对“对症下药”进行量化,对诊疗方案的合理性给出了一个量化的标准，有一定的合理性与临床参考价值。特别是在用数据对模型检验后，证实了医生的确是个高风险的职业，也显示了在中国建立医疗责任保险制度的必要性和紧迫性。但在模型应用过程中还需要注意以下几个方面：

①病因的复杂性。病因的复杂性会导致样本空间的分划的个数n比较大，因此需要结合医学规律对样本空间分划进行合理的选择。

②患者体质的差别。不同的患者对同类的医疗事故，由于体质的差别可能带来不同程度的损害。

③医生临床诊断水平的差异。不同的医生，由于经验等方面的因素，误诊概率可能有较大的差别。

④医院的潜规则。有的医院把医生的收入与其给医院的创收挂钩，这样同一病症在不同的医院治疗，诊疗费用会有较大的差别。

⑤实际赔偿金的差别。不同地区上一年度人均收入差别较大,加之实际赔偿金还与实际谈判能力有关系，这样就可能导致同类医疗事故在不同地区及不同的患者(或家属)身上，实际赔偿金差别也较大

⑥现行医疗体制对模型的影响。下面对此进行较详细的分析。

中国现行的医疗事故赔偿责任者只有一个，就是医疗机构，但医疗机构作为理性人，会尽量减少其自身的医疗成本以实现利益的最大化。医疗机构会将其自身受到的损失通过以下三种主要方式进行转移：一是利用价格机制，提高医疗费用，即将损失分散于所有的就医者身上；二是由具体责任人承担风险，即将损失的一部分转移给与事故直接相关的医务人员；三是通过责任保险机制，将损失转移给保险公司。但长期以来，在中国实际上只有第一种和第二种途径在发挥着作用,责任保险机制可以说作用甚微。

这样,就很容易导致医疗费用上涨，引发医患关系紧张。医学的专业化使得医疗机构和患者之间存在巨大的信息差，医疗机构有动机也有能力通过使患者进行重复或者不必要的检查项目等方法多收费用,弥补自身损失.因此模型作用的发挥,还需要以下几方面的配合：

①重视医德建设,提高医护人员自身修养。裘法祖院士在文献里有很深刻的认识。

②加强医患之间的沟通，进行换位思考，让医生理解患者的苦衷，让患者理解诊疗的风险。

③加强误诊规律的研究。医疗技术的进步从来都是和风险相并存的，从某种程度上说误诊是不可避免的，但作为医护人员要提高生命权保护意识，不断提高自身的临床思维能力诊断能力力争把误诊率降到最低。

④加强医护人员临床思维能力和临床经验的提高。医学很大程度上是经验学科,医学理论最终还要内化为医护人员的实际诊断能力才能发挥作用。公式(1)为医护人员提高诊断水平提供了一个很好的参考。

⑤探索适合中国国情的、于患于医均有益的医疗责任保险制度。尤其是在生命意识越来越受到重视的今天，只有切实的降低行医的风险，才能从根本上解决医患关系紧张的现状，实现医患关系的和谐。

在ACM比赛中的应用

赛题：POJ 3716 Panda’s Birthday Present

题意是说，有4个六面的骰子，在一开始的时候对每一面各以50%的概率染成红色或蓝色，然后掷了两次，每次的得分为4个骰子里面掷出红色向上的数目。给定两次的得分x,y(0<=x,y<=4)，问第三次的得分的期望是多少。

这道题目最后的“期望”的定义不甚明确。如果按照解ACM题的思路，我会这样考虑问题：把四个骰子的红色面数组合成一个状态，求出每个这种四元组的概率，然后利用x,y这两个值，可以排除掉肯定不可能的四元组，把剩下的概率重新归一化，再求第三次的期望，但是按这种算法无论如果对不上样例（也可能是我写错的），一囧之下我就yy出下面一个算法：

从贝叶斯概率的角度来想这个问题，在不知道x,y时计算出的四元组的概率作为先验概率P()，然后我们进行一次试验，设得到的值为x，则由贝叶斯公式，后验概率

在等号右面，先验概率P()通过dp和组合公式容易得出，似然函数P(x|)也可由dp得到，P(x)是归一化因子，可以先不予考虑。于是得到观测值的后验概率为：

这里Z是归一化因子，即为对所有四元组求得的P(|)之和。

求得了这个之后，第三次得分的期望即为：

ps.据说有人得到超级简单的公式，最后结果就是(x+y+10)/7，再ps.这次月赛单挑拿了个第三，居然是在退役后拿到历史最好成绩……

意义

例如：一座别墅在过去的 20 年里一共发生过 2 次被盗，别墅的主人有一条狗，狗平均每周晚上叫 3 次，在盗贼入侵时狗叫的概率被估计为 0.9，问题是：在狗叫的时候发生入侵的概率是多少？

我们假设 A 事件为狗在晚上叫，B 为盗贼入侵，则以天为单位统计，P(A) = 3/7，P(B) = 2/(20*365) = 2/7300，P(A|B) = 0.9，按照公式很容易得出结果：P(B|A) = 0.9*(2/7300) / (3/7) = 0.00058

另一个例子，现分别有 A、B 两个容器，在容器 A 里分别有 7 个红球和 3 个白球，在容器 B 里有 1 个红球和 9 个白球，现已知从这两个容器里任意抽出了一个红球，问这个球来自容器 A 的概率是多少?

假设已经抽出红球为事件 B，选中容器 A 为事件 A，则有：P(B) = 8/20，P(A) = 1/2，P(B|A) = 7/10，按照公式，则有：P(A|B) = (7/10)*(1/2) / (8/20) = 0.875

贝叶斯公式为利用搜集到的信息对原有判断进行修正提供了有效手段。在采样之前，经济主体对各种假设有一个判断（先验概率），关于先验概率的分布，通常可根据经济主体的经验判断确定（当无任何信息时，一般假设各先验概率相同），较复杂精确的可利用包括最大熵技术或边际分布密度以及相互信息原理等方法来确定先验概率分布。

举例

举个例子来说明：假设有一台癌症诊断仪，通过对它以往的诊断记录的分析，如果患者确实患有癌症它的确诊率为90%，若果患者没有癌症，被诊断成癌症的概率为10%。

问题：如果一个人被这台诊断仪确诊成癌症，这个人患有癌症的概率是多少？

根据贝叶斯公式设A：癌症诊断仪给出癌症诊断。B1：病人是癌症患者。B2病人不是癌症患者。

P(A|B1)=90%；P(A)=90%*P(B1)+10%*P(B2)；

则P(B1|A)=P(B1)*90%/(90%*P(B1)+10%*P(B2))；

我们知道人群中癌症患者的比重是很小了，假设为1%，则P(B1)=1%；P(B2)=99%；

可以算出：P(B1|A)=8%!

看出什么问题了吗？如果医生仅仅根据癌症诊断仪给出的确诊信息就认为病人有很大可能性患有癌症(医生经常这么做)，那就太不付责任了！因为即使这样，这个病人得癌症的概率还是只有8%!

对公式P(B1|A)=P(B1)*90%/(90%*P(B1)+10%*P(B2))做一下简单的变形：可以得到P(B1|A)=1/(1+(10%*P(B2))/(P(B1)*90%)).在结果中只有一个变量P(B2)/(P(B1)，这个比率也叫做基础比率。基础比率越大，P(B1|A)的值越小。在本例中P(B2))/(P(B1)=99:1。

在推理中基础比率起到的至关重要的作用。可是大部分人在生活中做判断的时候却忽略了它,从而对于必然的小概率事件的发生深信不疑。