关键词:试验设计;数据处理;教学探索
《试验设计与数据处理》这本书结合了大量实例,图文并茂,实例丰富,是生物科学研究非常重要的工具性课程。该书主要介绍了一些常用的试验设计及试验数据处理方法在科学试验和工业生产中的实际应用,并介绍了计算机在试验数据处理中的强大功能。全书主要由两个部分组成,第一部分是关于试验前的设计理论、知识、技能,包括试验数据的误差、图表、方差和回归分析处理方法;第二部分是关于试验后对试验数据进行科学处理的理论、知识、方法与技能,主要介绍了优选法、正交设计、均匀设计、回归正交设计和配方试验设计方法。《试验设计与数据处理》课程是一门十分重要的课程,为此我们对《试验设计与数据处理》课程的教学内容、方法和手段进行了几项改革探索。
一、授课教师与学生均需明确课程开设的意义,并明确培养目标
授课教师应当高度重视本课程的开设对于培养生物专业学生优良科学素养的重要性。生物专业是需要进行大量试验并总结分析试验结果,才有可能验证或发现与生命相关的变化规律。授课教师应积极引导学生,使学生认识到本应用性课程的开设有利于培养他们科学地进行试验设计,快速掌握并优化试验方案,从而减少试验的次数,缩短实验周期。另外,努力让学生认识到经过试验获得的大量原始数据是需要经过严密统计分析处理,才有可能寻找出事物的内在规律,才有可能科学地解释各种生命现象。因此,授课教师应当引导学生认识到试验设计能力和分析总结能力对于生物专业学生解决科学研究问题的重要性。
二、课堂教学的改革探索
教师需根据教学目的不断进行教学的调整、补充与完善,鼓励学生在学习过程中多思考、多研究,不断拓宽知识面。在教学实践中教师应当努力做到把握重点难点,努力让学生融会贯通,熟练掌握。对于试验设计方面,应当注重强调试验设计的基本思想、基本原则和设计方法的正确运用。教师应当注重考查学生对于重点难点问题的掌握程度,以及运用统计分析方法的正确性与熟练度。在授课过程中,教师应当加强师生互动环节,努力激发学生的学习兴趣。例如,增强学生的实操经验,鼓励学生尝试用所学的知识去整理生物化学、细胞生物学、分子生物学等其他学科的实验数据,学会并掌握根据现学的统计分析方法分析自己的实验结果。课堂教学过程中,教师还需要加强对多媒体技术的运用,通过多维模式进行教学,吸引学生的注意力,进而加强学生的学习效果。现代多媒体信息量大、形象直观,可以减少教师在课堂上板书和画图的工作,更好地利用教学时间。此外,还可以利用多媒体演示统计软件处理的实例,可以直观、清晰地指导软件的运用,达到充分调动学生的求知欲和积极性的目的。
三、在课程配套方面,生物系应当追加统计分析软件相关方面的选修课
因为试验设计与数据处理的软件,如Excel,SAS,SPSS,DesignExpert等,可以使试验设计与数据处理简单化,可以节省大量的时间、人力、物力。同时,教师应力求培养学生具备生物的基本理论知识和相对较强的试验技能,严谨的科学态度和思维,使其具备运用所学知识和试验技能进行应用研究、技术开发和科技管理的基本技能。积极创造机会,让学生明确实验设计、数据收集整理、分析推断的过程,充分调动学生的主观能动性,提高教学效果。学生通过自己设计实验案例,操作实验,并完成对数据的统计分析,一方面,可以避免学生枯燥地机械记忆数学公式,另一方面,又可以培养学生的统计分析思维能力。这一系列辅助配套有望提高学生灵活运用知识的水平及动手能力,避免学生死记硬背和生搬硬套,提高学生发现问题、分析问题和解决问题的能力,让学生真正体会到本课程在生产和科研实践中的应用。
总之,《试验设计与数据处理》是一门非常重要的工具课,通过对该课程教学目标的明确定位,对课堂教学的改革探索,提高学生的主观能动性,以及课程配套等方面进行探索研究,并作出相应调整与更新,有望激发学生积极探索与主动学习的热情,取得了良好的教学效果,达到了提高学生的专业水平。此外,应该积极建设《试验设计与数据处理》,力争将其建设为校级、省级甚至是部级的精品课程,将其建设成可以体现现代教育教学思想,符合现代科学技术发展,适应社会发展进步的需要、促进学生的全面发展,并深受学生欢迎的一门课程。
参考文献:
WangBo
(ShanghaiMaritimeUniversityOceanEnviromentalandEngineeringCollege,Shanghai201306,China)
摘要:文章提出了GIS在微生物监测中的设想及操作步骤。通过实验得出微生物数据,并建立微生物空间数据库,利用ARCGIS软件中地统计模块对微生物进行空间自相关分析,进行环境分析。
Abstract:ThispaperputsforwardtheapplicationofGISinthemicrobialmonitoringandprocedures.Throughtheexperiment,thepapergetsmicrobialdata,andestablishmicrobialspacedatabase.AndusinggeostatisticalanalystoftheARCGISsoftwaremakesspatialautocorrelationanalysisaboutmicroorganismsandenvironmentalanalysis.
关键词:GIS环境监测微生物地统计学
Keywords:GIS;environmentalmonitoring;microorganisms;geostatistics
中图分类号:TP31文献标识码:A文章编号:1006-4311(2011)27-0114-01
0引言
GIS地理信息系统是以地理空间数据库为基础,在计算机软硬件的支持下,运用系统工程和信息科学的理论,科学管理和综合分析具有空间内涵的地理数据,以提供管理、决策等所需信息的技术系统[1][2]。简单的说,地理信息系统就是综合处理和分析地理空间数据的一种技术系统。本文对如何建立微生物环境地理信息系统库,系统、直观、形象的反映微生物状况进行了初步探讨。
1思路及技术路线
1.1思路首先,通过微生物实验得出环境数据。
其次,将实验得到的环境数据输入GIS软件,建立临港新城环境地理信息系统数据库。
再次,利用GIS强大的空间分析功能,利用其地统计分析工具对环境数据进行分析。
1.2技术路线图
2内容方法
2.1实验部分微生物检测:土壤微生物培养分别采用牛肉膏―蛋白胨培养基分离细菌,高氏一号培养基分离放线菌,马铃薯培养基分离真菌,微生物计数采用平板菌落法。
2.2数据处理部分将实验得到的数据按照固定格式输入Excel表格,再将Excel数据添加到ARCGIS数据库,转换成shp格式,以此得到临港新城环境属性。应用GIS空间分析模块(地统计学)对环境数据进行分析。
首先,由于地统计学只有对正态数据的插值分析才是最优的,因此必须先需对环境数据进行正态检验,若不符合正态分布,则进行正态转换;
其次,选择最适合的变异函数理论模型,常用的理论模型有球型模型、指数模型、高斯模型;并对插值结果进行交叉检验[3]。
最后,通过Kriging插值得出微生物的空间分布图,根据分布图进行相关分析。
2.3临港新城土壤环境分析通过实验数据,对各环境因子间的相关性进行分析,以及各环境因子对临港新城土壤环境的影响,最后根据分析结果综合分析临港新城土壤环境现状[4]。
3结语
土壤微生物是土壤中有机物质的分解者和转化者,在土壤肥力和生态系统功能上占有重要地位。由于微生物对环境变化敏感,因此微生物量能够在一定程度上反映土壤的养分以及污染程度,一个地区土壤中微生物数量越大,说明该地区土壤环境越好[5],因此对土壤微生物量的监测是极其重要的。
在过去传统的环境管理中,涉及多部门、多地区和多领域,具有复杂性和时空动态性的环境数据,多以枯燥单调的文字形式表现出来,许多深层次的信息乃至知识掩埋在文字背后,系统缺乏强劲的统计分析、可视化分析及决策支持功能[6]。随着电脑技术的发展,地理信息系统(GIS)已被逐渐广泛用于环境领域,不仅可以及时、准确、高效地获取、存贮、管理和显示各种环境信息,而且可以对环境进行有效的监测、模拟、分析和评价。
参考文献:
[1]胡克林,张凤荣,吕贻忠等.北京市大兴区土壤重金属含量的空间分布特征[J].环境科学学报,2004,24,(3):463-468.
[2]张朝生,章申,何建邦.长江水系沉积物重金属含量空间分布特征研究―地统计学方法[J].地理学报,1997,52,(2):184-192.
[3]李天生,周国法.空间自相关与分布型指数研究[J].生态学报,1994,14,(3):327-331.
[4]潘惠霞,王秀云,王林霞.生态环境对微生物分布的影响[J].干旱区研究,1990,7,(2):44-49.
关键词:生物统计学;教学改革;探索;实践
中图分类号:G642.0文献标志码:A文章编号:1674-9324(2014)42-0109-03
生物统计学是概率论和数理统计的原理和方法应用于生命科学研究中资料的搜集、整理和分析的科学,它涉及生物科学试验的设计,试验方案的实施,数据的收集、整理和统计分析,是科技工作者从事科学研究的工具和手段[1]。生物统计学是现代生物科学研究和生产实践不可缺少的工具[2],在农学、生态学、环境科学、遗传学、病理学、药剂学、分子生物学、生物信息学等领域采用统计学的方法来认识、推断和解释生物科学的各种现象越来越广泛。目前,生物统计学已成为高等院校生物学及相关专业的必修专业基础课。通过生物统计学的教学和实践,不仅可以培养学生科学运用统计学的方法分析和解决问题的能力,而且可以提高学生的逻辑思维能力,培养学生探索问题的能力,激发学生的开拓创新精神。
一、明确教学目标,改革教学内容
本校生物统计学课程现使用的教材是由李春喜等主编,由科学出版社出版发行的《生物统计学》教材(2009年8月第四版),生物科学、生物技术、食品工程、园艺等本科专业都开设了这门课程,很多学生在学习过程中普遍感到难学。由于《生物统计学》仅有32学时,根据各章节的难易程度和实用性,适当删减部分内容,合理编排教学内容。在确定本课程的教学大纲的基础上,根据本科生的培养层次和课时要求,在教学内容上进行优化组合,抓住核心,注重实用性;在教学目标上,要求学生通过理论教学、实践教学、课后学习等环节,熟练掌握数理统计原理、试验设计(包括正交设计、回归设计、随机区组设计、裂区设计、拉丁方设计)以及统计分析方法(包括u检验、x2检验、F检验、方差分析、回归分析、相关分析等)等内容,达到能独立设计试验以及对试验资料进行统计分析和处理;在课程定位上,生物统计学应是一门基础理论课和实践技能课。因此,在教学过程中,概率与概率分布重点讲述统计数分布的特点、二项分布、正态分布的特点及其概率的计算;统计推断需要重点强调假设检验的意义、基本原理和步骤,以及u检验、t检验、总体参数的区间估计方法;在试验设计及其统计分析教学中,通过实际案例重点讲述试验设计的基本原则、基本方法、常用物试验设计方法及使用条件,并要求学生掌握不同设计试验资料的统计分析方法。《生物统计学》课程教学中应重点难点突出,一般知识熟知,注重应用性和实践性,以素质教育为最终目的,以培养学生能力为本位,强调理论联系实际的教学理念。例如讲述概率分布、统计推断、方差分析、回归分析、试验设计及其统计分析等,其中基本方法和步骤相似的减少原理论证,采用类比教学法和引导探讨法,可以详细讲述其中一些分析方法,其他分析方法可以采用启迪和推导方式让学生轻松学习,尽可能多地结合实际生产和科学研究中的统计学案例进行教学,加强理论与实践的联系。
二、改进教学方法,提高教学效果
教学方法是教师和学生为了实现共同的教学目标,完成共同的教学任务,在教学过程中运用的方式与手段的总称。教学方法形式多样、特点和功能各不相同,教师需要根据教学内容的性质和特点,选择合理的教学方法,并对各种教学方法进行有机组合和优化,以便取得良好的教学效果。《生物统计学》课程的理论性强,公式复杂、概念多、内容抽象,采用传统授课方式必然会降低学生的学习兴趣,难以取得良好的教学效果,不利于培养学生分析问题和解决问题的能力。因此,关于不同的内容应选择合适的教学方法,采用先简化、再演绎、最后归纳的方法[3]。实践证明,利用网络资源、多媒体技术和信息技术实施课程教学活动可以取得良好的教学效果。在生物统计学教学中我们采用多媒体技术和板书设计有机结合进行授课,多媒体授课内容丰富,信息量大、图文并茂、形象直观,能够充分调动学生的求知欲和积极性。但是,公式演绎和推导,若采用多媒体教学,会使学生错失一些重要步骤,因此,我们采用板书方式直观推导数学公式。关于实际应用性很强的知识进行教学时,例如假设检验、统计推断和方差分析等,可采取贴近实际生活的案例引导教学,并结合图表,力求把基础理论原理用浅显的语言表达出来,改抽象教学为直观教学,深入浅出。另外,《生物统计学》教学过程中结合实际生活,运用创设情境法、提问设疑法等,激发学习热情,培养学生提出问题、分析问题和解决问题的习惯,遵循从感性认识到理性认识的认知规律,并运用视频和动画,让学生通过自主学习、合作探究、分析总结等一系列思维活动,逐渐掌握生物统计学的基本原理及常用统计方法。同时根据教学进度适当安排一些辅导答疑课,让教师解答学生的疑难问题,并且让学生互相探讨疑难问题,充分调动学生学习的主动性和积极性,发挥学生的主观能动性。
三、优化理论教学,重视能力培养
生物统计学具有较强的应用性、实践性和可操作性,基本理论知识与统计方法的应用是相辅相成,密切联系的。生物统计学理论知识抽象,仅采用传统的讲授模式对学生传授其空洞的理论,学习起来枯燥乏味,会降低学习的积极性,难以实现教学目的,更不能取得良好的教学效果。随着生物统计学软件的普及,我们在教学过程中,利用统计学软件把基本原理与统计方法实际应用有机结合起来,既调动了学生学习的兴趣,培养了学生分析和解决问题的能力,也巧妙地把理论知识和实际应用接轨。在教学过程中,每讲授一种统计方法后,给出相应的具体数据,安排学生应用SPSS软件进行数据的整理、输入、核对、计算和统计推断,最后得出科学合理的结论。Excel软件提供了数据分析、图表绘制和输出管理等功能,易学易用,我们在教学过程中直接通过Excel软件处理系统进行案例演示教学,实现学以致用的目的。Excel也提供了具体的数学函数,包括x2分布、F分布、二项分布和正态分布等重要的概率密度函数,可将教材中相关函数的实例结合Excel的统计分析功能进行直观演示教学,使学生很容易理解和掌握。
四、加强实践教学,培养科研素质
计算机的普及为生物统计学实践教学提供了基础,为大量试验资料的收集、保存、整理和分析提供了有利的条件。我们在理论教学的基础上,开设了生物统计学实验课,采取理论教学与统计软件实际操作同步进行的方法。例如,讲授完试验资料的搜集和整理后,开设用Excel绘制常用统计图的实验课。方差分析和回归分析讲完后,紧接着安排1至2节实际操作课,让学生通过统计软件动手操作方差分析和回归分析,有利于理论知识学习的理解和应用,这些尝试与改革受到学生的欢迎。实践教学证明,利用计算机、多媒体和统计学软件等先进教学手段的有机结合进行实践教学,合理安排学生操作时间,有利于学生把理论知识应用到实践操作中,训练学生亲自进行实际问题的分析和探讨,培养学生解决实际问题的能力,并且理论与实践相结合的教学有效取代枯燥无味的纯理论课教学。在实践教学中,我们引导学生合理科学地整理试验资料和编辑数据,选择统计方法,正确理解统计结果的科学意义,掌握评价和分析数据的方法,并将获得的统计结论结合生物科学、生物技术、食品工程等专业,去发展并阐述其内在规律,为社会生产实践和科研服务。另外,利用多种统计学软件开展实践教学,让学生运用现代科学技术和统计学方法独立完成试验数据的统计分析,开拓学生的视野,培养学生的科研能力,提高学生的科研素质。
众所周知,国内外学术造假现象日益严重。在《生物统计学》整个教学过程中,可以采用实际案例正确引导学生树立诚实、诚信的学术道德观念,形成良好的科学素养。例如在讲授试验设计时,要着重强调设计试验一定要遵循随机性、重复性、可行性和可控性等基本原则,要设有试验组和对照组,保证有足够的样本量。讲授试验数据整理及其统计分析时,要求学生一定要对原始试验数据资料进行检查与核对,对试验数据中的重复值、异常值、误差值进行删除或订正,反复告诫学生在今后的科研中不能随意改动数据,获得的结论一定要经得复查或重新试验的验证,并举例学术造假的案例告示学生,这有利学生在将来从事科学研究时保持良好的科学素养。
五、改革考核方式,注重统计方法的运用
考核是课程教学的重要组成部分,科学合理的考核方式对学生理论学习和能力培养具有引导、激励和促进作用。传统生物统计学考核方式常以闭卷笔试为主,这种考核方式无法全面考查学生对统计方法的掌握情况和应用能力,也难以摆脱高分低能的现象[4]。为了科学合理地评价学生的成绩和能力,由于生物统计学实用性强,我们实行考查学生掌握理论知识与实际操作技能相结合的综合考核方式,采取闭卷考试和上机操作考试有机相结合的方式,将考核成绩分为三部分:平时成绩占20%,包括课堂表现、出勤率、作业情况;上机操作考试占30%,在计算机上进行试验数据资料整理、输入、分析和统计推断等,考查学生利用统计学软件对常用统计方法的运用能力;闭卷笔试成绩占50%,考试命题突出基础性和实用性,多出应用型计算题,同时考虑学生掌握基本知识的程度及灵活应用知识和解决实际问题的能力。通过生物统计学教学改革,提高了教学效果,调动了学生学习的积极性与主动性,摆脱了单纯的理论应试教学模式,增强了学生实践能力和创新意识的培养,提高了学生科研素质。但是,生物统计学概念多、公式复杂、基本原理抽象,教师要上好这门课程,仍需进一步探索教学方法,优化教学过程,完善教学体系,全面提高教学质量[5]。
参考文献:
[1]李春喜,邵云,姜丽娜.生物统计学(第四版)[M].北京:科学出版社,2008:1-3.
[2]王永立,乔琳,樊淑华.生物统计学课程教学改革探索与尝试[J].周口师范学院学报,2011,28(5):82-84.
[3]丁建华.《生物统计学》教学方法与技巧探讨[J].安徽农学通报,2011,17(19):171-172.
[4]李六林.提高《生物统计学》教学效果的探讨[J].山西农业大学学报:社会科学版,2009,8(1):94-97.
[5]李玉阁.“生物统计学”课程教学初探[J].生物学杂志,2006,23(5):52-54.
基于理念分析和比较研究方法,对大数据的分析方法和传统统计学分析方法的关联性和差异进行了对比分析,从方法的基本思想、量化形式、数据来源、分析范式、分析方法、分析视角等角度揭示了两种社会科学分析方法存在的联系与差异。
关键词:
大数据;统计学;研究方法
中图分类号:
F27
文献标识码:A
文章编号:16723198(2015)11005201
随着信息技术的日益发展与普及,信息以及数据在社会经济发展过程中发挥的作用越来越重要。现如今,“大数据”时代已经来临,于是如何更有效地利用数据快速做出科学决策也已成为众多企业甚至是国家所共同关注的焦点问题。在数据处理和分析方法方面,《统计学》以及在其基础上发展而来的实证统计方法是当前的主流,这些方法可以帮助数据持有者从大量的数据中挖掘有价值的信息,并为其相关决策提供理论支撑和方法支持。然而,传统的实证统计方法在最新出现的大数据情境下,却呈现出了诸多缺陷,例如传统数据收集方法无法实现大规模(甚至是总体)数据的收集,传统统计方法和分析软件无法处理大规模数据,等等。于是,在将传统统计学方法应用于最新的大数据情境和问题之前,需要首先明确大数据所要求的处理方法与传统的统计学处理方法存在哪些关联和区别,然后才能够决定是否可以应用既有统计学理论和方法来处理某些大数据问题。
1大数据的界定
根据一位美国学者的研究,大数据可以被定义为:itmeansdatathat’stoobig,toofast,ortoohardforexistingtoolstoprocess。也就是说,该学者认为:在关于大数据的所有定义中,他倾向于将之定义为那类“太大”、“太快”,或现存工具“太难”处理的数据。一般而言,大数据的特征可以概括为四个V:一是量大(Volume);二是流动性大(Velocity),典型的如微博;三是种类多(Variety),多样性,有结构化数据,也有半结构化和非结构化数据;四是价值大(Value),这些大规模数据可以为持有企业或者组织创造出巨大的商业或社会价值。
Victor在其最新著作《大数据时代――生活、工作与思维的大变革》中指出,大数据时代,思维方式要发生3个变革:第一,要分析与事物相关的所有数据,而不是依靠分析少量数据样本;要总体,不要样本。第二,要乐于接受数据的纷繁复杂,而不再追求精确性。第三,不再探求难以捉摸的因果关系,应该更加注重相关关系。这些变革反映出了大数据处理方式与传统统计学分析方法的很多关联以及主要不同。因此,下面我们分别针对两者的联系和区别进行讨论。
2大数据与统计学分析方法的联系
从18世纪中叶至今,统计学已经经历了两百多年的发展历程,不论是基础理论还是社会应用都极其坚实而丰富。大数据作为一种新兴的事物规律认知和挖掘思维,也将会对人类的价值体系、知识体系和生活方式产生重要影响,甚至引发重大改变。作为两种认知世界和事物规律的基本方法,它们在以下两个方面存在紧密关联。
(1)挖掘事物规律的基本思想一致。统计学(statistics)探索事物规律的基本方法是:通过利用概率论建立数学模型,收集所观察系统的数据,进行量化分析和总结,做出推断和预测,为相关决策提供依据和参考。对于大数据,维克托指出,大数据思维的来临使人类第一次有机会和条件,在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律,获取过去不可能获取的知识。通过这两个定义可以看出,不论是传统的统计学方法还是新兴的大数据分析方法,都是以数据为基础来揭示事物特征以及发展趋势的。
(2)均采用量化分析方式。大数据分析的基础是数据化,也就是一种把各种各样现象转变为可制表分析的量化形式的过程。不论是传统统计学中所应用的数据(定性和定量数据),还是大数据时代即将被转化和采用其他形式数据(如文字、图像等),最终都是通过量化分析方法来揭示数据中所蕴含的事物特征与发展趋势。
3大数据与统计学分析方法的区别
(1)基础数据不同。在大数据时代,我们可以获得和分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机抽样。这意味着,与传统统计学数据相比,大数据不仅规模大,变化速度快,而且数据来源、类型、收集方法都有根本性变化。
①在数据来源方面,在大数据背景下,我们需要的纷繁多样的数据可以分布于全球多个服务器上,因此我们可以获得体量巨大的数据,甚至是关于总体的所有数据。而统计学中的数据多是经由抽样调查而获得的局部数据,因此我们能够掌握的事“小数据量”。这种情况下,因为需要分析的数据很少,所以必须尽可能精确的量化我们的数据。综上,大数据情况下,分析人员可以拥有大量数据,因而不需要对一个现象刨根问底,只需要掌握事物大体的发展方向即可;然而传统的小数据情况下则需要十分注意所获得数据的精确度。
②在数据类型与收集方面,在既往模式下,数据的收集是耗时且耗力的,大数据时代所提出的“数据化”方式,将使得对所需数据的收集变得更加容易和高效。除了传统的数字化数据,就连图像、方位、文本的字、词、句、段落等等,世间万物都可以成为大数据范畴下的数据。届时,一切自然或者社会现象的事件都可以被转化为数据,我们会意识到本质上整个世界都是由信息构成的。
(2)分析范式不同。在小数据时代,我们往往是假想世界是如何运行的,然后通过收集和分析数据来验证这种假想。也就是说,传统统计实证分析的基本范式为:(基于文献)提出理论假设-收集相关数据并进行统计分析-验证理论假设的真伪。然而,在不久的将来,我们将会在大数据背景下探索世界,不再受限制于传统的思维模式和特定领域里隐含的固有偏见,我们对事物的研究始于数据,并可以发现以前不曾发现的联系。换言之,大数据背景下,探索事物规律的范式可以概括为:数据观察与收集――数据分析――描述事物特征/关系。
(3)数据分析方法不同。传统统计学主要是基于样本的“推断分析”,而大数据情境下则是基于总体数据的“实际分析”,即直接得出总体特征,并可以分析出这些特征出现的概率。
(4)分析视角不同。传统的实证统计意在弄清事物之间的内在联系和作用机制,但大数据思维模式认为因果关系是没有办法验证的,因此需要关注的是事物之间的相关关系。大数据并没有改变因果关系,但使因果关系变得意义不大,因而大数据的思维是告诉我们“是什么”而不是“为什么”。换言之,大数据思维认为相关关系尽管不能准确地告知我们某事件为何会发生,但是它会提醒我们这件事情正在发生,因此相关关系的发现就可以产生经济和社会价值了。
4结语
综上,相对于传统而言,大数据思维主要包括三个重大转变。首先,要分析与某事物相关的所有数据,而不是依靠分析捎来能够的数据样本;其次,研究人员应乐于接受数据的纷繁复杂,而不再追求精确性;最后,认知世界的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。以上三个转变构成了大数据思维的核心。在统计学的进一步应用和发展完善过程中,需要结合以上转变所产生的挑战,思考有效的统计学发展对策。
参考文献
[1]孟小峰,慈祥.大数据管理:概念,技术与挑战[J].计算机研究与发展,2013,50(1):146169.
[关键词]药物I期临床试验;分类资料;统计;SAS
[中图分类号]R954[文献标识码]C[文章编号]1673-7210(2014)07(c)-0139-04
药物临床试验中的数据管理与统计分析,是保证研究结果科学、可靠的重要环节之一。既往统计报表过程主要采取手工方式,即将统计软件所生成的统计分析结果,应用“复制”、“粘贴”的方法导入到报表之中。由于临床试验往往产生海量的数据,该过程费时费力,且需要耗费大量的时间进行校对,即便如此,仍极易出现错误。近年来随着临床试验的发展,产生了海量的试验数据,这种简单的统计分析方法更无法满足数据统计的需求。基于此,本研究组应用SAS统计分析软件,借助SAS宏语言进行了计算机编程,实现了药物Ⅰ期临床试验分类资料统计分析自动报表,全面提高了临床试验的统计效率,保证了统计分析结果的科学性及可靠性。
1分类资料统计分析自动报表的目的及内容
以某Ⅰ期药物临床试验的部分性别、民族两个人口学数据为例。本数据选取试验中的两个剂量组进行统计分析,其中1~4号为第一组,5-8号为第二组,具体信息见表1。目的为借助SAS软件实现对试验数据中的性别、民族资料自动生成报表(Excel报表)。见表2。
2自动生成报表的编程方法
统计之前,首先将“表1”导入SAS软件,并生成名为SASUSER.SHUJV文件。其基本过程为文件导入数据选择数据类型(如Excel)NEXT选择表格OKNEXT在Library中选择SASUSER给文件命名Finish。
第一步:按剂量组拆分表格
在SAS程序中,所设定的变量字段过长,下输出表格“j.xls”多不能完整地表达数据,而在Excel中被多设置出来的字段均由“空格”代替,所以使用“菜单-编辑-替换”这一操作,将“空格”全部替换掉,此法用于批量删除空格。
使用以上操作后即得出所有数据,实现SAS统计分析分类数据的自动报表。
4讨论
在我国,由于近年临床试验的蓬勃发展,每年有近800多种新药进行药物Ⅰ期临床试验,速度增长达40%[1],并有超过60家跨国企业开展临床试验,涉及人群50万[2]。但是,由于我国药物临床试验起步晚,在数据管理、质量控制、质量保证体系及计算机信息技术的应用方面与国际先进标准仍有较大的差距[3]。因此,必须通过采取严格过程监管、充分保护受试者权益,保证数据可靠等一系列质量提升措施,全面提高药物临床试验质量[4-5]。
科学的统计分析是对试验验药物进行科学评价的关键内容之一。目前统计分析过程多借助软件来完成,如SAS、SPSS、STATA等,而在得到统计分析结果后,如何实现准确无误的统计报表,将研究结果客观、真实地展现研究者及相关评审专家面前,则是临床试验的核心内容。
随着临床试验越来越多的开展,试验数据的增多,应用相关软件实现统计分析自动报表逐渐成为数据管理与统计分析的新方法和新手段。其最大的优点是,省时省力,错误率低,在效率上大大超过了手工操作[6];缺点是编程过程较为复杂,需要一定的编程技巧。如:戎氏借助report、data_null_过程步和宏变量自动生成了统计表格[7];邹建东[8]和许林勇等[9]通过调用相关SAS函数,SAS语句及SAS过程编写宏程序,实现统计分析报告自动报表;童新元等[10]通过调用SAS宏程序,构建了协方差分析的自动报表;薛钧等[11]借助SAS宏程序实现了临床试验数据盲态核查等。
虽然SAS宏程序因具有程序较短、操作简便的巨大优势而为统计专业人士所常用,但对于非专业或初学者来说理解起来比较困难,基于此,本研究从SAS自动报表的基本原理出发,对SAS自动报表过程进行分解讲述,具有浅显易懂、逐步深入的优点,特别适合非统计学专业的临床科研人员或初学者。
[参考文献]
[1]杨钊,李春潇,武志昂.关于加强临床试验中受试者权益保护的探讨[J].中国药师,2013,16(4):610-613.
[2]李轩,洪亮,邵蓉.完善我国药物临床试验受试者管理分析[J].现代商贸工业,2013,6:140-142.
[3]彭朋,元唯安,胡薏慧,等.我国药物临床试验质量管理规范实施过程中存在的问题及其对策[J].中国医院药学杂志,2012,32(24):2006-2007.
[4]耿琳,陈云飞,刘华.药物临床试验机构在药物临床试验质量保证体系中的重要作用[J].中国新药与临床杂志,2009,28(10):794-796.
[5]陈舒茵,梁春才,韦斌,等.谈药物临床试验的质量控制[J].中国医药导报,2011,8(31):154-156.
[6]殷红.临床试验中统计分析报告自动化生成的研究与应用[D].上海:复旦大学:殷红,2009:1.
[7]戎芬,贾彬.用SAS的两种不同语句自动生成相同的统计表格[J].现代预防医学,2008,35(24):2-4.
[8]邹建东.四格表指标统计分析报表的SAS宏程序[J].中国临床药理学与治疗学,2005,10(3):357-360.
[9]许林勇,张伟.动态血压监测评价降压药物疗效的谷峰比率的SAS统计自动报表[J].中国临床药理学与治疗学,2010,15(7):798-802.
[10]童新元,张高魁,姚晨.新药临床试验中协方差分析的SAS统计报表[J].中国临床药理学与治疗学,2004,9(8):958-960.
【关键词】统计学;统计思想;认识
1关于统计学
统计学是一门实质性的社会科学,既研究社会生活的客观规律,也研究统计方法。统计学是继承和发展基础统计的理论成果,坚持统计学的社会科学性质,使统计理论研究更接近统计工作实际,在国家和社会得到广泛发展。
2统计学中的几种统计思想
2.1统计思想的形成
统计思想不是天然形成的,需要经历统计观念、统计意识、统计理念等阶段。统计思想是根据人类社会需求的变化而开展各种统计实践、统计理论研究与概括,才能逐步形成系统的统计思想。
2.2比较常用的几种统计思想
所谓统计思想,就是统计实际工作、统计学理论及应用研究中必须遵循的基本理念和指导思想。统计思想主要包括:均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想。现分述如下:
2.2.1均值思想
均值是对所要研究对象的简明而重要的代表。均值概念几乎涉及所有统计学理论,是统计学的基本思想。均值思想也要求从总体上看问题,但要求观察其一般发展趋势,避免个别偶然现象的干扰,故也体现了总体观。
2.2.2变异思想
统计研究同类现象的总体特征,它的前提则是总体各单位的特征存在着差异。统计方法就是要认识事物数量方面的差异。统计学反映变异情况较基本的概念是方差,是表示“变异”的“一般水平”的概念。平均与变异都是对同类事物特征的抽象和宏观度量。
2.2.3估计思想
估计以样本推测总体,是对同类事物的由此及彼式的认识方法。使用估计方法有一个预设:样本与总体具有相同的性质。样本才能代表总体。但样本的代表性受偶然因素影响,在估计理论对置信程度的测量就是保持逻辑严谨的必要步骤。
2.2.4相关思想
事物是普遍联系的,在变化中,经常出现一些事物相随共变或相随共现的情况,总体又是由许多个别事务所组成,这些个别事物是相互关联的,而我们所研究的事物总体又是在同质性的基础上形成。因而,总体中的个体之间、这一总体与另一总体之间总是相互关联的。
2.2.5拟合思想
拟合是对不同类型事物之间关系之表象的抽象。任何一个单一的关系必须依赖其他关系而存在,所有实际事物的关系都表现得非常复杂,这种方法就是对规律或趋势的拟合。拟合的成果是模型,反映一般趋势。趋势表达的是“事物和关系的变化过程在数量上所体现的模式和基于此而预示的可能性”。
2.2.6检验思想
统计方法总是归纳性的,其结论永远带有一定的或然性,基于局部特征和规律所推广出来的判断不可能完全可信,检验过程就是利用样本的实际资料来检验事先对总体某些数量特征的假设是否可信。
2.3统计思想的特点
作为一门应用统计学,它从数理统计学派汲取新的营养,并且越来越广泛的应用数学方法,联系也越来越密切,但在统计思想的体现上与通用学派相比,还有着自己的特别之处。其基本特点能从以下四个方面体现出:(1)统计思想强调方法性与应用性的统一;(2)统计思想强调科学性与艺术性的统一;(3)统计思想强调客观性与主观性的统一;(4)统计思想强调定性分析与定量分析的统一。
3对统计思想的一些思考
3.1要更正当前存在的一些不正确的思想认识
英国著名生物学家、统计学家高尔顿曾经说过:“统计学具有处理复杂问题的非凡能力,当科学的探索者在前进的过程中荆棘载途时,唯有统计学可以帮助他们打开一条通道”。但事实并非这么简单,因为我们所面临的现实问题可能要比想象的复杂得多。此外,有些人认为方法越复杂越科学,在实际的分析研究中,喜欢简单问题复杂化,似乎这样才能显示其科学含量。其实,真正的科学是使复杂的问题简单化而不是追求复杂化。与此相关联的是,有些人认为只有推断统计才是科学,描述统计不是科学,并延伸扩大到只有数理统计是科学、社会经济统计不是科学这样的认识。这种认识是极其错误的,至少是对社会经济统计的无知。比利时数学家凯特勒不仅研究概率论,并且注重于把统计学应用于人类事物,试图把统计学创建成改良社会的一种工具。经济学和人口统计学中的某些近代概念,如gnp、人口增长率等等,均是凯特勒及其弟子们的遗产。
3.2要不断拓展统计思维方式
统计学是以归纳推理或归纳思维为主要的逻辑方式的。众所周知,逻辑推理方式主要有两种:归纳推理和演绎推理。归纳推理是基于观测到的数据信息(尤其是不完全甚至劣质的信息)去产生新的知识或去验证一个假设,即以所掌握的数据信息为依据,归纳得出具有一般特征的结论。归纳推理是要在数据信息的基础上透过偶然性去发现必然性。演绎推理是对统计认识能力的深化,尤其是在根据必然性去研究和认识偶然性方面,具有很大的作用。
3.3深化对数据分析的认识
任何统计研究都离不开数据分析。因为这是得到统计研究结论的必要环节。虽然统计分析的形式随时代的推移而变化着,但是“从数据中提取一切信息”或者“归纳和揭示”作为统计分析的目的却一直没有改变。对统计数据分析的原因有以下三个方面:一是基于同样的数据会得出不同、甚至相反的分析结论;二是我们所面对的分析数据有时是缺损的或存在不真实性;三是我们所面对的分析数据有时则又是海量的,让人无从下手。虽然统计数据分析已经经历了描述性数据分析(dda)、推断性数据分析(ida)和探索性数据分析(eda)等阶段,分析的方法技术已经有了质的飞跃,但与人类不断提高的要求相比,存在的问题似乎也越来越多。所以,我们必须深化对数据分析的认识,围绕“准确解答特定问题并且从数据中获取一切有效信息”这一目的,不断拓展研究思路,继续开展数据分析方法技术的研究。
参考文献:
[1]陈福贵.统计思想雏议[j]北京统计,2004,(05).
[2]庞有贵.统计工作及统计思想[j]科技情报开发与经济,2004,(03).