【关键词】信息熵最大熵最小叉熵
1865年克劳修斯(Clausius)提出状态函数――熵,到现在为止,熵的内涵不断扩大,据不完全统计,目前大概有70~80种熵分别应用到生命科学、系统科学、经济学、金融保险、统计学、生态学、哲学、文学、艺术、历史学、语言学、宗教学社会各个领域。近二十几年来,信息熵的概念与方法正逐渐引入到金融、保险、经济管理的研究之中,成为现代定量定性研究中的一种新思路与新方法。
本文简要介绍信息熵概念、性质,以及经济管理中应用的信息熵模型。
1信息熵的概念
在现代信息论中,常遇到定量测量从某一信息源传来的信息量大小的问题。Shannon将熵的概念加以推广,不与热力学过程相联系,也不与微观的分子运动相联系,而是成为系统状态(这个状态可以是热学的,也可以不是热学的)不确定程度的量度。他认为,如果信息源表示信息用的信号有n种,若一个信息源中某种信号出现的概率为,那么,它带来的信息量就是。因此,Shannon认为该信息源带来的总的信息量就是
(1)
用H来测度信息,其中C为比例系数,式(1)称为信息熵或者Shannon熵。
2信息熵的性质
Shannon的信息熵具有若干重要性质,也是一个关于不确定性程度的合理度量所应具有的性质。这些性质被归纳如下:
性质1.非负性;
性质2.若与,则;即确定性事件的熵值为0,也就是不确定性为0。
性质3.;
性质4.最值性
;
性质5.是一个关于所有变量的对称凹函数。
信息熵可以成为系统状态不确定程度的度量,用这个概念可以研究系统内部某种分布的差异,如股票的的分布、寿命的分布、损失分布等等。随着信息熵的概念在不断扩大,信息熵的内涵在不断丰富,在不同场合,针对不同对象,它可以做为系统状态的混乱度、不确定性、信息缺乏度、不均匀性、丰富度等的量度。
3信息熵模型
3.1最大熵模型
Jaynes对熵函数的广泛应用作出了极大的贡献,他提出的最大熵原理:“在根据部分信息进行推理时,应使用的概率分布必须是服从所有已知观测数据的前提下使熵函数取得最大值的那个概率分布。这是能够做出的仅有的无偏分配;使用任何其他分布,则相当于对未知的信息做了任意性的假设”。我们采用最大熵方法来确定基本样本信息的概率分布密度的最优估计。从信息论的角度看,无信息意味着不确定性最大,最大熵适用于无信息和有部分信息的情况,它可以解决数据不完全的求解问题。
最大熵方法的样本概率密度的估计,可以利用样本信息的一种简便的方法计算样本的各阶矩,下面以随机变量来具体说明这种方法:由(1)令
(2)
约束条件为:,,其中k为所用矩的阶数,为第i阶原点矩。
3.2最小叉熵模型
设是定义在概率空间上的随机变量,考虑一个具有个结果的概率试验,并设这些结果各自具有离散概率,还有一个先验概率分布,概率测度相对于概率测度的叉熵定义为
这里,;
;;。
两个熵优化原理的实质,现将它们一起概括地陈述如下:最大熵(最小叉熵)原理,是在服从已知信息条件下,找最接近均匀(先验)分布的一组概率分布;最小叉熵原理的提出进一步丰富了信息熵的内涵,使信息熵的应用领域深入到精算学、金融学和经济管理决策等各个学科领域,尤其在经济和金融的风险度量的应用更是让人瞩目。
参考文献:
[1]JaynesET.Informationtheoryandstatisticalmechanics[J].ThePhysicsReviewⅠ,1957a,106:620-630;ThePhysicsReviewⅡ,1957b,108:171-190.
[2]KullbackS.Informationtheoryandstatistics[M].NewYork:JohnWiley,1959.
〔关键词〕哲学,信息,逻辑,工具
〔中图分类号〕B81-05〔文献标识码〕A〔文章编号〕1004-4175(2015)01-0050-04
〔收稿日期〕2014-11-16
〔作者简介〕刘鹏(1974-),男,山西洪洞人,山西大学哲学社会学学院博士生,主要研究方向为逻辑学和信息哲学。
信息世界的发现是人类发展到目前阶段最令人振奋和影响深入的事件,无论对于日常生活亦或是学术研究,信息已经作为一个主要的、基本的材料或因素在发挥着基础性的作用。与证明、真值、后承、算法等逻辑学传统研究对象比起来,逻辑把信息概念纳入视野作为研究对象还是新近的事情。本世纪初,大量技术和哲学的研究汇集形成了逻辑与信息哲学这个新兴的领域。随着信息世界的发现,哲学和逻辑的主题、研究内容和方向已经发生了信息转向,围绕信息展开学术研究激发和促进了思想的大发展和对世界的新理解。
一、信息为逻辑提供洞见和新的理解
信息哲学近来得到很大发展,其元概念是信息。信息哲学在探索交流是如何可能的问题时,发现了信息概念的哲学价值。有哲学家把交流比作打网球,信息就是交流的网球。我们发现,交流主体必然涉及不止一方,交流应该是至少两个以上主体间的交流,说明交流带有社会性;交流过程必然涉及不止一个单向的过程,交流应该是至少一个以上双向的对话过程,说明交流带有动态性;这种动态性必然涉及主体信息状态的不断更新过程或主体信念系统的修正过程,必然带有主体心理的因素参与其中,因此交流又应该具有心理性。我们可以说,信息哲学带给现代逻辑的洞见至少有主体间性的洞见、动态修正性的洞见、主体心理性的洞见和逻辑真理的洞见。
(一)主体间性的洞见。我们知道,信息世界发现后,交流成为哲学的基本问题。交流应该是至少两方的主体间的交流,信息在两个以上主体间流动,最终达到通过交流认识世界的目的。信息概念本质上涉及多个主体,生活世界中的信息是具有社会性的,信息成为逻辑的研究对象,必然为逻辑研究提供社会性洞见,从而为逻辑学发展开拓道路。一个很好的例子是现代认知科学,认知科学主要研究主体的认知机制与过程,认知科学有一个很重要的概念是主体间性,认知科学发展也是有其逻辑支撑的,其中一种是认知逻辑,认知逻辑在表达信息的抽象形式,刻画信息流的动态过程中,就把认知科学的主体间性很好地刻画出来了,从而极大促进了认知科学的认识和深化。信息的社会性洞见还为逻辑学的信息转向提供了具体的研究对象。我们认为,包括经典逻辑在内的传统逻辑处理的主要是单主体的逻辑,主要是刻画系统内的推理过程,比较多个主体的信息流动的处理,有很大局限性。多主体信息流的刻画成为逻辑学的挑战性课题,多主体逻辑同时对于人类理解信息世界,关照日常生活提供全新的理解。因此,刻画多主体逻辑的理论意义和实践意义都很重大。逻辑学在把握社会性的过程中必将得到极大的发展。
(二)动态修正性的洞见。信息为逻辑提供的第二个洞见是动态修正性的洞见,主要体现为将逻辑研究视野转变到对主体动态活动的关注上来。范本特姆把信息引入逻辑学,提出了新的逻辑学动态研究纲领:在逻辑学研究中引入主体活动这个范畴,把主体的活动作为同逻辑命题那样加以同等对待。〔1〕(P503-519)这样,逻辑学就呈现出由静态认知研究转向动态认知研究的新阶段。我们看到,逻辑开始转向对信息更新、交流和主体间互动等新内容的探索和研究。逻辑不再满足于以往的抽象推理有效性的研究,不再满足于那种逻辑形式的静态的演绎,不再满足于从真到真的完美过渡,而是关注于实际生活中的人或某个智能体等这样的主体实际是如何在动态的思维的,关注主体在有限信息环境中是如何根据信息流动来得到结论的整个行动过程的,关注于立足主体行为与主体意图、信念等的变化之间的动态关系,关注于主体的行为的认知基础和认知解释。比如当代动态认知逻辑研究人的会话过程的主要思路是结合具体情景分析信息如何生成、研究认知中的推理过程、分析信息的更新状态、分析人的信念的修正,在这个思路中,涉及大量语言学、认知科学和逻辑学知识,最终结果是建立会话过程的信息结构模型,理清信息流动轨迹。也就是说,逻辑学动态性的重要标志是把信息活动作为逻辑学研究的中心任务,逻辑的大量工作都集中在对主体诸如言语行为、交流、观察、学习和信念修正等动态机制的研究上。这样的研究既对语言结构分析意义重大,也对主体的动态化过程认识、计算机信息处理以及人工智能研究都具有重要的意义。
(三)主体心理性的洞见。信息为逻辑提供的第三个洞见是主体心理性的洞见。我们知道,逻辑学尤其是近代经典逻辑学是拒斥心理主义的。弗雷格曾经为了给数学找到坚实的逻辑基础断然声明:要把心理的东西与逻辑的东西分开。的确,分析哲学拒斥了心理主义后的逻辑一扫千年停滞的状态,得到了革命性发展,最终形成了数理逻辑宏伟大厦。然而,在宏伟中,数理逻辑走向了一种抽象的、符号的困境,远离生活世界,远离人,某种程度上成为少数专门家的技术展示。数理逻辑的另外一面是忽视了主体的能动性和信息的欠缺性,隐含着诸如将人类思维引入歧途等这样的隐患。范本特姆认为这是一种“系统禁锢”〔2〕(P225-288),由于远离人的生活实践,符号化抽象化的数理逻辑形式系统作为形式科学的固有的逻辑观念的狭隘性所导致的空洞性,这对于逻辑学发展和对于人的发展来说是无益的。然而怎样化解这种有用的空洞性呢?按照信息的洞见,逻辑应该重返生活世界,关照日常对话,关照日常交流。这里要首先考察信息更新的机制,信息哲学定义信息是主体的信息,信息在交流过程中是完成更新,新的信息状态构成主体的新的信念以达到交流的目的,而形成新信念的过程是主体结合原有信念与新信息进行综合处理的过程,即新信念=旧信念+新信息。从这个过程中,我们看到,逻辑在刻画和表达这样的信念更新过程中,是不能不考虑主体的心理因素的,所考察的这部分心理因素不同于弗雷格所拒斥的心理主义,而是合理的心理因素,通过引入对主体心理因素的合理考虑,逻辑就能够很完善地刻画人的信念修正过程了。这样,通过承认人这样的主体在实际上是如何推理的,并且引入认知心理学的东西使得逻辑得以很好刻画主体推理模型,就会使逻辑学研究别开生面。
(四)对逻辑真理的洞见。社会性洞见通过使逻辑改变单主体格局而转向多主体格局,为逻辑学拓展了研究领域。动态性洞见通过使逻辑改变静态的观点而转向动态的修正的观点,为逻辑学启发了研究视野。而心理性洞见通过使经典逻辑改变对心理主义的拒斥而转向接受合理的心理因素的介入,为逻辑学增加了新的研究方法与研究视角。信息的引入对于逻辑学发展的洞见还应该有很多,有待继续探讨研究。但是仅就这些洞见就已经足以引起逻辑学的信息转向了〔3〕(P117-122)。那么,这里还有一个根本性的问题,那就是怎么看待逻辑学的核心基础――逻辑真理。信息对于逻辑真理的影响又是什么呢?如果能够清晰地用信息的观点重新定义逻辑真理,那么信息对于逻辑的作用与影响将是革命性的,这应该是信息对于逻辑的最大的洞见。有逻辑学者对逻辑真理进行系统总结认为,经典逻辑中用到的逻辑真理类型有:前提(或命题)真、推理真、指派(赋值)真、形式真与系统真〔4〕(P230-241)。这些逻辑真理的类型分别从知识信念角度、从前提到结论的保真角度、从符号经济学角度、从形式公式抽象性和形式系统一致性角度系统总结了经典逻辑逻辑真理的本质。然而,经典逻辑真理概念基本特征是单主体性的、静态性的和抽象形式的,完全与其所服务的经典逻辑概念相一致。而信息视角下,也就是逻辑学开始面向社会性、动态性和心理性时,逻辑真理概念也将不容置疑地发生信息转向,社会性的、动态性的和心理性的因素应该得到深入思考和探究。逻辑真理必须认真面对日常生活,面对生活世界。在信息对于逻辑真理概念的洞见里,逻辑学要依据主体掌握的信息为根据来规定真,即新的逻辑信息真的逻辑真理观,应该得到高度关注。
二、逻辑为信息提供形式分析工具
在分析哲学家看来,日常语言是混乱的并且到处存在误用,哲学的任务归根到底就是清理语言的混乱与误用,清除一切形而上学,给科学奠定一个严谨稳固的基础。信息世界的逻辑就是要通过理解日常语言与生活世界进而把握世界。
(一)信息世界需要逻辑分析。传统哲学认为逻辑是对推理的系统研究,是通过阐明或“开启”隐含在给定前提中的信息得到新结论的一种方法。这意思就是说,比如一个典型命题推理“从A∨B,A得到B”的结论B道出了更多满足这两个前提的情况的信息。但生活世界的逻辑推理应该被看做是信息处理。按照这种理解,一些信息处理就是逻辑推理。逻辑是一种很好的形式化分析工具,第一逻辑可以很好地去表达信息处理的任务,去刻画信息处理的过程。而这些被表达的信息处理和过程在传统上是不被看做是逻辑研究的范围的。逻辑在这里的作用主要有两个,一个是对信息处理任务的描述和解释,另一个是为逻辑模型的输入输出装配提供适合的逻辑语言。
信息的逻辑研究揭示和探讨了信息概念的许多非常基础性的定性的方面,正在慢慢成为哲学反思社会的利器。有学者提出三种不同角度的信息的定义,〔5〕(P63-67)分别是基于范围的信息定义、基于联系的信息定义、基于编码的信息定义,分别从不同角度强调了信息的定性规定。逻辑在对信息的刻画和对信息处理的表达方面提供了彻底的形式化工具,促进了对信息和信息处理概念的把握和理解。
(二)逻辑分析成为把握信息世界的基本工具。基于范围――主体和信息更新的形式表征与处理。逻辑学对基于范围的信息定义的核心直觉理解是一个信息状态或许可以被某一时刻可接受信息相一致的主体状态的配置或状态概率的范围所定义。获取新的信息与缩小这个范围相一致,这样就减少了事态的实际配置的不确定性。在这种理解下,对于认知模态逻辑的可能世界语义学配置的证明足够支撑信息的各种不同语义的研究。基于范围的信息定义的逻辑的一个鲜明的例子就是信息更新,由于不同主体相互间的交流,信息在主体间的社会性配置不断地发生与更新,而这种信息更新与不同的认知行为相伴随行。
基于联系――情景语境和通道理论的形式分析。逻辑学对于基于联系的信息定义的核心直觉理解是针对与信息流的刻画,信息流概念与结构化系统相联系,结构化系统内部各部分有着系统性的联结,逻辑在这个基础背景中刻画信息流的逻辑状态改变。例如,树木年轮的数量能够告诉我们关于树木年龄的信息,并且树木年轮表述着树木经历的从过去走到现在的自然界事件如旱涝雨雪等是如何演进的信息。逻辑学对基于联系的信息的形式化刻画包括结构化信息环境下信息关于情景语境、通道理论等内容。
基于编码――相关逻辑线性逻辑的形式处理。逻辑学对于基于编码的信息定义的核心直觉是信息片段(信息的编码)或者信息计算与推理过程的语法性结构的形式化描述。对信息片段(信息的编码)或者信息计算与推理过程的形式化研究的一个重要的自然的逻辑装置就是证明理论。逻辑学家近来对一些子结构逻辑,尤其是相关逻辑和一些线性逻辑的研究,就是对基于编码信息概念的相关方面的逻辑形式分析。
(三)对信息概念的形式化处理。逻辑学对于基于范围、基于联系和基于编码这三种信息定义的形式化分析处理与概念理解并不是互不相容的,三种信息定义立场之间是可化约并且彼此之间是可以互相转化的。以多部分组成的结构化信息系统为例。首先,系统内各部分间的联系自然地允许基于联系的信息定义信息流的存在;第二,既然某部分接受的局部信息要一致于系统整体状态的某个概率范围,那么各部分自然存在范围上的逻辑分布概率;最后,系统各部分组合的、类语法的、证明理论的信息将会针对整个结构化系统而被以不同方式进行编码化表达。这样,基于联系的信息流就成为了一种组合系统。在这个系统中,适应特殊的相关逻辑的解释,局部信息状态以类语法的方式得以组合。逻辑学还能够清晰地给信息建模过程增加新的结构化编码,给结构化系统各部分或局部安置演绎计算,达到对信息定义三种立场形式化关系处理。
三、信息与逻辑的辩证统一
人类的生活方式、工作方式,甚至生产方式由于信息的介入正在或已经发生深刻变化,而对信息以及关于信息的逻辑的思想上或者哲学上的反思从上世纪40年代开始,也慢慢地在进行着。
(一)信息世界是哲学反思的基础。从现象层面观察,现在的世界与传统的世界是大大的不同了。以计算机器及理论发展和以计算机科学与技术为代表的现代科技的繁荣,尤其是通信和网络技术的应用不断深化,其结果是根本性地改变了人类生活方式、生存方式,直至人类的思考方式,在这样的革命式的变化中,信息作为其中基本的对象和因素,其作用力和影响力被迅速地凸显,成为人类世界经常的基本的话题。信息是一切的根据。因此,许多哲学家、逻辑学家纷纷在他们的文章中向大众启示新的关于信息的哲学。我们面临的世界已经发生了根本性的变化,我们的世界已经变成了一个新的世界――信息世界。
(二)信息转向化解逻辑发展的危机。从哲学上看,信息世界的世界观变化是带有根本性,这种根本性的变化使逻辑学面临了或面临着一种转向――信息转向。现代逻辑的信息转向,即逻辑研究焦点逐步转向对于信息流与人际交流的研究,这远远超出了逻辑学的传统论域:推理与意义。这使得逻辑成为了多学科学术舞台的中心活跃者,并在实践中产生新的影响,而对逻辑与信息哲学关系的认识是这种影响的一个重要方面。从信息或信息哲学的角度重新理解逻辑的概念,类似维特根斯坦的《逻辑哲学论》,是否有基于信息本体论世界观的新的《逻辑哲学论》呢?在没有形成理论之前,这只是一种直觉上的理解和推测,然而不是没有价值。面对信息世界,逻辑发展到现代逻辑纯粹的数学推理、符号化和抽象系统的方式遇到了极大的危机,像亚里士多德经典逻辑那样统一的逻辑没有了,人们看到的是不同逻辑预设下的哲学逻辑和形式系统。尽管在应用上,不同的逻辑和系统给人们带来了利益,但是逻辑所呈现出多元化、碎片式状态不能不说是一种逻辑的危机。如何克服种种危机呢?有没有一个统一的核心概念完成逻辑的统一呢?值得注意的是,近年的国外文献中也出现了一些可贵的证据和痕迹,那就是逻辑学正在与信息发生着越来越多的碰撞,逻辑学论文中,信息这个词汇的出现率正在逐步提高。信息的概念作为逻辑学大家庭中的新的一员,正在与逻辑发生密集碰撞,而在这个过程中,逻辑发现了“新大陆”,而信息得到“新澄清”。逻辑与信息在哲学上发生着关系性的概念革命。这种概念关系视角必然引发如下问题:信息能给逻辑带来什么?逻辑能把握信息的概念吗?信息怎样改造逻辑?信息能给逻辑以真和意义吗?有基于新逻辑的统一的信息哲学理论吗?
(三)逻辑变革促进信息哲学的形成。逻辑是认识世界的最为精确和基本的工具。离开逻辑,我们对于世界的把握就是失据的。逻辑对于那种理解和认识的目标是局部修正就可以了,还是说需要大大改变和发展滞后的状况,以一种新的理论形态来解析世界呢?我们有很多的问题。但是我想,逻辑自身是无法回答这些问题的。我们的方向应该是在哲学的高度重新审视逻辑,就像维特根斯坦那样,为世界发现新的逻辑学。从上面对于信息与逻辑两方面在概念上的互动,使得我们可以以新的角度重新认识信息与逻辑,这要从两方面来讲。一方面,从逻辑学自身发展面临危机的角度来讲,经典数理逻辑那种静态的、单调的、抽象的方式已经不能很好解释和解决生活世界的问题,逻辑学发展变革在谋求新的契机。另一方面,从信息作为新的思维方式角度来讲,信息概念纷繁复杂,可以讲是使用最为频繁、作用最为重要却在概念上理论上研究最少的事物,信息的基本性使得哲学家甚至将其视为继存在、知识、意义等哲学基本概念之后的又一个本体性的概念,以信息概念为核心,形成了信息哲学,而关于信息哲学的讨论和研究则无论从国内还是国外都方兴未艾。这些讨论和研究的目标都指向为人类再次建立新的统一的“第一哲学”。目前看来,虽然这样的目标宏大而遥远,但人们朝此目标努力迈进的步伐早已开始。信息哲学的研究极大开拓了人类思想新境界,从信息新视角重新认识逻辑,为逻辑学最终克服逻辑危机,完成逻辑变革提供了一个可以选择的路径。同时,新的信息逻辑也为信息哲学克服诸多阻碍成为第一哲学提供了一个足以依靠的基本方法与工具。
参考文献:
〔1〕VanBenthem.LogicandtheDynamicsofInformation〔C〕.
MindsandMachines,2003.
〔2〕VanBenthem,MaricarmenMartinez.TheStoriesofLogicandInformation〔C〕.HandbookonthePhilosophyofInformation,2007.
〔3〕VanBenthem.Whereislogicgoing,andshouldit?〔C〕.Topoi,2006.
截至2005年6月,国际系统医学术语临床术语(TheSystematizedNomenclatureofHumanandVeterinaryMedicineClinicalTerms,以下简称SNOMEDCT)核心术语包括了366170条卫生保健的概念,而用于描述这些概念则使用超过99.3万条记录,近146万条语义关联令数据的获取充分可靠。
SNOMED发展历程
1974年,SNOMED第一版问世,由44587个词条、6个模块构成。SNOMED的范畴包括解剖学、形态学、正常与非正常的功能、症状及疾病体症、化学制品、药品、酶及其他体蛋白、活有机体、物理因素、空间关系、职业、社会环境、疾病/诊断和操作。SNOMED的每一个术语(词条)均有一个编码与之对应,在疾病/诊断轴内,很多疾病概念还提供了与其他术语的交叉参照关系。1998年,SNOMED演进到3.5版,包括156965个词条和压缩过的12个模块。
近年来,美国国家医学图书馆与美国病理学会(CAP)签署了关于使用SNOMEDCT的协议书,允许在美国推广使用SNOMEDCT,并且允许一些组织在国内免费使用SNOMEDCT。
英国国民健康保险制度(NHS)也与美国病理学会共同成立了SNOMEDCT标准发展组织(SNOMEDCTSDO)用于推动并规范SNOMEDCT的使用。
1997年发行的3.4版是中文译本的原版。中文SNOMED电子版是中文SNOMED3.4版的电子化产品,含145856个词条,并且建立起3.2万个词条与ICD-9-CM的对照关系。之所以与英文版的词条数目(146217)不同,是因为两种语言本身存在的差异(例如同义词)。它分为11个模块,其层次结构通过该词条代码的树型构造表达。每个词条的内容包括:编码、中文名、英文名、类别符、层次、与该词条相关的外部编码、ICD-9-CM码、药品编码、药厂编码、酶编码及SNOMED相关词条的交叉参照列表。
SNOMEDCT的概念与构成
SNOMEDRT(SystematizedNomenclatureofHumanandVeterinaryMedicine
referenceTerminology)是为了满足医学信息处理的广泛要求,在SNOMED3.6版基础上加入了新的设计理念,于2000年面世的。SNOMEDRT定义了概念(Concepts)和关系(Relationships)的集合,提供了通用的参考标准,用于全面的医疗保健信息的比较与聚合处理。
SNOMEDCT是SNOMEDRT的衍生物,于2002年面世。它在SNOMEDRT定义的概念中加入了编码、关系、描述、层面等内容,使之更加清晰完备。SNOMEDCT所包含的概念并没有大幅度增长,大量增长的是描述与关系。其中,描述由2002年1月时的40万条发展到如今的90余万条,关系则由近80万条发展到近146万条。
因此,SNOMEDCT由概念(Concepts)、概念ID、描述(Descriptions)、属性(Attributes)、层面(Hierarchies)、关系(Relationships)(关系又分为IS-A关系与属性关系)构成。其中,概念、描述、关系是SNOMEDCT的核心构件。
1.概念、描述与层面
SMOMEDCT不再使用词条表的方式对术语进行表示,而是采用概念的形式。概念以理解为医学中标准的临床术语,每个概念都有惟一的概念码,但每一个概念都可能有多个描述,并且由993420条描述形成了庞大的描述表――我们可以理解成同义词表。如“Paininthroat”(咽喉痛),在SMOMEDCT中是概念,而在实际应用中,它将会有多种不同的术语表达,如“Sorethroat”、“Throatpain”、“Paininpharynx”、“Throatdiscomfort”、“Pharyngealpain”、“Throatsoreness”,但它们并不是概念,而只作为描述被收集在描述表中。每一条概念有若干描述与之对应,描述表中的每一条描述也有与之相对应的概念存在。
SMOMEDCT不再使用“轴”或“模块”来划分术语,而是定义了18个层面(Hiera-rchies),用18个层面区分366170条概念。
实际应用中,上述18个层面中还有细分,如“人体结构”这一层面中又有细分为“形态学上的反常结构”,下面的列表所示为以一组解剖病理学中所使用的概念与概念所在层次举例。
2.关系
SMOMEDCT中的概念与概念间是有一定“关系”存在的。概念有36万条,但关系有近146万条。这种基于概念间的语义关系令数据的获取充分可靠。在SNOMEDCT中,关系分为两种:IS-A关系与属性关系。
IS-A在同一个层面中,表示某些概念间的关系。如关节炎属于关节系统疾病,而关节系统疾病属于骨科疾病,这样关节炎关节系统疾病骨科疾病就形成了一种IS-A关系;
属性关系表示跨层面的概念间的关系,如“阑尾炎”是一种疾病,但从形态学上看,“阑尾炎”属于炎症的一种,在属性关联中,可由“阑尾炎”引导出“炎症”。
3.属性
在SNOMEDCT中,每一条概念都有若干种属性用于准确具体表示概念。同一层面中的概念的属性类型是相同的。以临床表现为例,在临床表现中的概念的属性为:发现部位、联合词(如:之后、导致、因为)、形态学、严重程度、发作情况、过程、情景、解释、病理学、事件等。
SNOMED与本体论
本体(Ontology)是关于概念和概念之间关系的形式化描述系统,在此指形式化的(即可以被机器所处理的)、对共享概念的精确详细的说明和描述,一般包括概念的使用类型及约束条件。本体提供了信息交互各方在特定领域的共同知识背景,常用于作为特定领域中可被计算机理解、应用的知识模型,包括领域中的概念、属性及其相互关系。
SNOMED是从术语表演进而来,仍然处于不断的发展与变化之中。当前SNOMED的发展方向和方法学正在走向医学本体研究与表达,RIM的框架和复杂关系的表达,加上SNOMED多年来在临床应用受控词表的经验,预示着医学知识本体研究将会有重大进展,而UML(UnifiedModelingLanguage,统一建模语言)将是重要工具。
SNOMEDCT已经成为美国最重要的医学受控词表,36万条的概念与146万条关系形成了医学领域本体,反映的是医学领域理论与本质上的事实。
应用现状与前景
1.在临床信息系统中的应用
目前,受控词表(CMV)在医学信息交换中位于数据处理的核心地位,它紧紧包裹在临床数据库外,临床信息系统将通过一系列引擎与受控词表相连接,从而形成可交互的、能够保障病人安全协作医疗服务与监控的突发公卫事件系统、电子病历(EMR)系统、ICU监测系统、临床诊断支持系统、用药观察研究、临床试验系统、医嘱处理系统、疾病监测系统、影像学及社区人群健康服务等系统,方便数据挖掘与决策分析。
2.SMOMEDCT与UMLS
SNOMED为UMLS(UnifiedMedicalLanguageSystem,统一医学语言系统)提供医学术语词条开始于2004年1月。UMLS是医学术语研究的重要课题。SNOMED为UMLS提供了最为广泛和最为重要的医学术语,是UMLS所包含的多个术语集之一。UMLS的主要角色是提供多用途的电子化医学词典,它使得许多不同源术语集中的相同语义拥有标准格式成为可能。
3.SMOMEDCT在医药学中的作用
在美国国家医学图书馆编制的临床药学标准术语RxNorm中,SNOMEDCT在公众领域可以提供一些特殊的药品概念与编码信息。SMOMEDCT与RxNorm都可以应用于药品信息系统。
4.SMOMEDCT与英国国民健康信息基础架构(NHII)
英国制订的国民健康信息基础架构(NHII)的目标之一是:无论何时何地,让需要且有权使用电子病历的人能够使用,并且以保障其隐私权为前提。为了实现这个目标,NHII参考并采用了一系列现有卫生信息标准。在消息标准方面,采用了如HL7、DICOM、IEEE、X12N、NCPDP等;在术语标准中,有LOINC、ICD-9CM、UMLS、SNOMED等。