定性调研适合用统计分析模型吗?

关于论文写作常用研究方法指导

  毕业论文的写作方法种类比较多,而常用的有调查研究法、定量分析法、实证研究法、文献研究法。具体选择方法根据自身论文的专业和学科领域做选择,文科论文和理工科论文的使用研究方法还是很大区分的,接下来就由小编带来论文写作常用研究方法指导,希望对你有所帮助!

  第一种:调查研究法

  此研究方法是科学研究之中运用最多的方法之一。它的主要方式有访谈形式、电话调查形式问卷调查形式等,这个是对研究对象进行周密和系统的了解并收集大量的资料进行比较、分析、归纳从而总结出规律性的内容。而这之中问卷调查是运用的极为普遍的,它是以书面形式的问题,通过调查收集得到最为贴切实际的结果然后整理和统计研究。但是此调查研究法的缺点是测试者由于某些原因会对问题作出虚假或者错误的回答。

  第二种:观察研究法

  这是指研究者根据研究的对象用自己的感官和其他辅助工具去探究被研究对象,从而获得资料的一种方式。科学研究法具有一定的目的性、计划性、系统性、重复性。常用的有自然观察法和设计观察法。由于人的感官有一定的局限性所以我们都通过其他现代工具和手段进行研究。如:照相机、录像机等来辅助观察。此研究方法的缺点是:时间有局限性、收观察的对象有限制、受观察者的本身有限制、观察法不适用于大范围调查、只能观察外部和结构无法观察到事物的思想和本质。

  第三种:实验研究法

  实验研究方法是研究者通过自然和社会现象和现象之间普遍存在着的一种因果关系的体现。通过控制和变革来发现事物之间的联系。它的方法有:主动变革实验、控制实验、因果实验。主动变革实验:观察者在不干预研究对象的情况下去认识研究对象来发现问题的存在,而实验则主动控制条件人为的改变对象的变化过程和存在方式,使得能从科学认知方面得到解释。控制实验:借助各种技术,消除减少各种影响能让科学无关的东西从而简化、纯化的情况下认识研究对象。因果实验:用实验发现事物之间的因果联系有效工具和必要的途径。

  第四种:文献研究法

  通过采集、整理文献并对其研究形成事实的科学认知方法,此方法是最古老而又富有科学研究生命力的方法。它是根据研究目标和课题通过文献获得资料进行正确全面的研究问题,文献研究法被利用于各科学科中。它能然跟我们认识到问题的现状和过去,来帮助确定研究课题。能对研究对象形成初步印象有助于我们进一步观察和深入。能从现实直接的资料信息中做比较,更能全面的了解研究对象。

  第五种:实证研究法

  研究者要亲自收集观察对象的信息,为理论假设、检验理论假设进行研究,它的特点是具有直接性和鲜明性的。通常运用数理实证研究和案例实证研究这两种方法,不断的通过研究客观的了解世界。通过控制和观察记录与此相伴的想象变化来确定条件和现象之间的因果关系,其目的是在于说明自变量与某个因变量的关系。

  第五种:定量分析法

  通过定量分析法可以使我们对研究对象进一步深化,用科学的方法来解释科学规律,研究对象的本质把握和关系的理清来预测事物的发展趋势。

  第六种:定性分析法

  它是由预测人员对研究对象进行主观判断和分析,是从“质”的方面来研究,运用总结和演绎等方法对材料进行思维加工取之精华舍去伪表,这类方法主要适用于一些没有或不具备完整历史资料和数据的对象。常用的定性分析方法有:管理人员的判断、专家的意见、销售人员的估计、顾客调查和市场测试、小组讨论、集合意见法、德尔菲法、质―量分析法、吸引力指数。

  第七种:跨学科研究法

  通过现有的科学理论对课题进行综合研究,也就是我们所说的“交叉研究法”。目前我们有2000多种学科,而学科的划分还在不断的加剧中,同时各个学科之间的联系也更加精密。在语言、方法和某些概念方面,有日益统一化的趋势。

  第八种:个案研究法

  个案研究法是指对某一个对象进行较长时间连续性的研究从而得出其行为变化发展的过程,这种研究方法就是我们所说的案例研究法。基本类型有:个人调查、团体调查、问题调查。此个案研究方法特征有:研究对象的典型性、研究过程的深入性、研究成果的可操作性。

  第九种:功能分析法

  它是社会科学用来分析社会现象的一种方式,是社会调查常用的分析方法之一,通过社会现象说明怎么满足社会需求的一个系统,用来解释社会现象。它是自然科学和社会科学的结合,从而分析自然现象和社会现象的一种方式。

  第十种:数量研究法

  它也被称为“统计分析法”和“定量分析法”,通过对研究对象的规模、速度、范围、程度等数量关系进行研究从而得出事物之间的关系、变化规律、发展来达到研究对象的正确理解和预测方式。

  第十一种:模拟法(模型方法)

  模拟法和类比法很相似。就是在实验室里先设计出于某个被研究现象或过程(即原型)相似的模型,然后通过模型间接的研究原型规律性的实验方法。模拟法可分为物理模拟和数学模拟两种。

  第十二种:探索性研究法

  这个是高层次的科学研究方法,它是用我们已知的信息知识通过自己探索和创新得出新颖独到的理论和成果。

  以上是几种常见的论文写作研究方法,当然还有其他各种研究方法了。实际也是要根据你自己的个人情况合理选择方法从而更好的完成自己的毕业论文。

  关于论文写作注意事项

  科学研究的基本要求是研究结果能够被重复,而快速判定结果能否被重复的途径就是作者所描述的材料与方法。因此,当论文提交给同行评议时,审稿人通常会十分关注并仔细阅读“材料与方法”部分。如果评审人对作者是否采取了正确可行的研究方法或技术、或实验能否被重复高度怀疑,就会建议退稿,而不管研究结果是如何地激动人心。因此,材料与方法的表达至关重要。

  材料与方法的写作要点如下:

  1.对材料的描述应清楚、准确通常先对材料做概述,然后再详细描述材料的结构、主要成分或重要特性、设备的功能等。

  材料描述中应该清楚地指出研究对象(样品或产品、动物、植物、病人)的数量、来源和准备方法。如果采用具商标名的仪器、化学试剂或药品时,还应包括对仪器进行精确的技术说明,并列出试剂或药品的主要化学和物理性质;有些甚至要求仪器和样品制造商的名称及所在地。

  对于实验材料,应采用国际同行所熟悉的'通用名,尽量避免使用只有作者的本国同行才知道的专门名称。然而,如果已知有不同特性的产品,并且相互间有重要差别,如特定的微生物媒介(microbiological media),就需要使用商标和制造商的名称(商标名的首字母应大写,如:Teflon),以示与通用名的区别,并将通用的描述紧接在商标名之后,如Kleenex facial tissues。

  实验用的动物、植物和微生物应准确地标识出(通常按属、种和世系名列出),并说明其来源和特殊性质(年龄、性别、遗传学和生理学状态)、抽样的要求或标准等。

  当需要描述多种微生物的种属或化合物的来源和特性时,可采用列表的形式;否则,在正文、表注或图注中简单描述即可。

  如果研究对象是人(志愿者或病人),则应特别注意拟投稿期刊的具体要求,应交代研究对象的选择标准,并根据情况兼顾一般性的重要统计特征(年龄、性别和身体状况),以及其他与论文主题相关的统计信息(如体重、身高、种族等)。

  2.对方法的描述要详略得当、重点突出方法即描述“研究是如何开展的?”。通常按研究步骤的时间顺序描述方法,其内容包括:实验环境或条件(如温度、电压、辐射、特殊的光线等);研究对象选择的方法;选用特定材料、设备或方法的理由;实验程序;所应用的统计分析方法等等。如果没有时间顺序,就按重要性程度描述实验步骤。

  在“方法”的描述中应给出足够的细节信息以便让同行能够重复实验,避免混入有关结果或发现方面的内容。必要时,应该完整地描述选择某种特定方法的理由。如果方法新颖、且不曾发表过,应提供所有必需的细节;如果所采用的方法已经公开报道过,引用相关的文献即可,如果报道该方法期刊的影响力很有限,可稍加详细地描述。

  对数据统计分析方法的详细描述通常表明作者是新近设计或获得该方法,并且作者认为读者需要这种解释;普通的统计方法无需评论或解释;先进或不常见的统计方法需要适当引用文献。

  如果要描述的内容较多,可按层次使用子标题,并尽可能创建与结论中内容相“对应”的子标题,这种写法可保持文章内部的一致呼应,并且读者也可很快了解某特定方法和与其相关的结果。

【关于论文写作常用研究方法指导】相关文章:

}

学术论文是一种结构化的文体,特别是定量研究的论文写作其实都有类似的行文逻辑。了解了这套论文写作结构,就能大大提高我们的写作效率,也更方便我们理顺逻辑思路。本篇主要介绍问卷调查研究类论文的一般结构。

注:本文所介绍的只是论文写作的一般结构,不是固定结构,主要给需要写学术论文的读者提供参考,我们可以根据实际情况和学校要求删减或调整内容。

现在,打开你手头上已有的几篇问卷调查研究类论文,阅读他们的论文目录,你会发现,这些论文的结构其实很相似。总体来看,问卷调查研究类论文的一般结构如下所示:

四、研究方法与问卷设计

接下来,我们再将论文的这六大部分分别进行更细致的介绍:

前言是论文的开场白,主要任务是让阅读者能了解全文的基本内容和研究思路,以及论文研究价值、研究的必要性。它可以包含以下几个标准部分:

研究背景以段落的形式展开,可以包含:全球背景/国内背景/地方背景,或现实背景/理论背景,以及研究问题目前的现状等。

研究问题/研究对象可以在介绍研究背景的过程中进行简单介绍,也可以单独成节进行重点陈述。

我们要明确阐述是在什么视角下提出的研究问题,说明该研究问题与当下形势有何关联,甚至通过已有的研究成果或数据佐证研究问题的广度和深度。

分别介绍该研究的目的和意义,用精炼的语言让阅读者了解该研究问题的价值所在。

4、论文结构和研究内容

论文结构和研究内容主要介绍该论文由哪几个章节组成,每各章节分别阐述了什么,还可以用一两句话简短概括这部分内容在论文中的用处。其中,论文结构一般用流程图展示。

需要注意,“论文结构”部分和第三部分“研究框架”所描述的内容并不相同。一些论文也常将“研究方法和创新”放在前言部分。

文献综述就是综述前人的研究成果。文献综述选用的是与自己的研究主题相关的重要学术文献,是对学术圈相关主题讨论情况的综述。

文献综述部分所占篇幅较长,是论文研究中的重要部分,很能体现研究者前期的理论功底是否扎实,对研究的投入是否充分,也能为研究者本人提供清晰的理论框架和借鉴。

由于文献综述涉及的知识非常广泛且专业,建议想实际提升这部分写作能力的读者有针对性的阅读和学习相关书籍,本文不会做过多延展。

但我们至少需要通过文献综述了解本领域中的已有成果、常用的研究思路和研究方法,等。同时,在文献综述中要阐明自己研究问题的研究现状、意义和价值,说明自己研究问题与以往研究之间的联系,以及在选题、论点或研究方法上是否具有创新性或新进展。

通过前两个步骤的前期研究,已经对研究问题进行了整体介绍,同时也很自然地引出了论文的研究框架。

论文的研究框架通常包括理论模型、概念框架、研究假设、和变量的操作化。

理论框架是指研究论文中所引用的作为基础或参考使用的理论,包括作者或理论家、专家和专业人士的主要观点。

以Lee在2010年写的一篇论文为例[1]。这篇论文基于期望-确认模型(ECM)、技术接受模型(TAM)、计划行为理论(TPB)和流程理论这四个理论模型开发了论文的研究模型和假设。因此,论文的“研究模型和假设”部分详细介绍了这四种模型,并将理论模型和自己研究论文的概念模型联系起来。

概念框架是在相关理论模型假设和前人实证研究经验的基础上,构建的研究模型。在有些论文中也叫理论模型、概念模型。它在论文中的地位很重要,在数据分析环节,会根据论文的概念模型建立结构方程模型或其它模型。

研究假设是研究论文中明确了研究问题,构建了概念模型后,对研究问题的规律、原因做出的一种推测性论断和假定性解释。扩展阅读:论文的研究假设怎么写?

概念/变量的操作化就是将抽象的概念/变量转化为可观察的具体指标的过程。

为了检验研究假设并测量模型的拟合情况,首先需要对研究模型的理论构件进行操作化处理,因为行为研究模型中的每个理论构念 (construct) 都是不能直接测量的潜变量,因此需要对其进行操作化的处理,即需要确定每个理论构件的测量指标,也即观察变量或测量项目,从而达到对潜变量的测量[2]。

论文中对概念/变量的操作化经常是以表格的形式呈现,表格中通常包括:理论构念、测量项目、测量量表来源,以及测量尺度。

研究模型中理论构念测量项目来源主要有两个:一是参考相关文献的测量项目;二是为了适应自身的研究目的,自行增设的一些测量项目。

四、研究方法与问卷设计

研究方法可以包括研究过程中搜集数据的方法,以及数据分析的方法。我们在写这部分的时候,不要仅限于对某几种研究方法概念的介绍,还要解释说明研究中如何运用这些方法。

数据搜集方法通常会介绍:怎样搜集原始数据和二手数据?哪种抽样方法?调查问卷的主要设计思路?运用了什么搜集工具?资料编码工具和方式?有效问卷有多少?有效问卷的筛选原则?等等。

数据分析方法通常会介绍:使用了什么统计分析软件;比如:SPSS、Amos、stata、R、Excel,等。具体使用了哪些统计分析方法;比如:描述性分析、探索性统计分析和验证性统计分析;或更具体地说明使用了信效度分析、方差分析、卡方检验、多元回归分析、结构方程模型分析,以及其他方法。

在正式发放问卷收集数据之前,通常都会先进行小范围的预调查。预调查对调查人数和调查对象的要求相对不高,主要目的是为了获得问卷填写者针对问卷的反馈信息,以便及时对问卷的题目描述、顺序设置、措词等进行优化。

同时,也可以对预调查得到的数据进行探索性因子分析和可靠性检验,确保最终调研问卷的信度和效度。

因此,这部分主要汇报预调查的过程、发现的问题及修订举措、信效度分析结果及是否对量表进行了相应的调整。

3、调查对象/样本特征

这部分主要介绍问卷调查的具体对象是谁,由哪些人组成,为什么选择他们作为调查对象,他们是否有代表性,还可以介绍抽样对象占目标人群或抽样范围多少。

同时还要对有效样本的数据进行描述,通常包括性别、年龄、学历、职业、婚育状况,等受访者人口统计信息及行为特征。这部分通常会附一个简单的三线表进行描述,说明各分类群体的人数和占比。

通过对问卷量表数据进行探索性因子分析(EFA)和可靠性分析,得到信度和效度检验值,判断采集的样本数据是否具有良好的内在一致性和结构效度。

探索性因子分析(EFA)常用于问卷的设计初期,帮助分析者建立模型框架。有些论文中如果在预调查阶段进行了探索性因子分析,在正式分析时就不会再呈现一次探索性因子分析结果,而是直接对数据开展验证性因子分析。通常,如果CFA的分析结果不好,EFA的分析结果一定也不好。

5、验证性因子分析(CFA)

验证性因子分析(CFA)常用于成熟问卷的信效度分析中。通过探索性因子分析检验并得到理想的理论量表结构,然后进一步使用Amos等结构方程建模工具进行验证性因子分析,评价模型与实际数据的拟合程度,从而检验理论结构的正确性。

注:无量表的问卷不需要做信效度检验和验证性因子分析。

1、对问卷数据进行统计分析

使用常见的t检验、方差分析、卡方检验、非参数检验、相关分析、回归分析等统计分析方法对数据进行分析。

具体使用哪种统计分析方法,需要看研究者想要分析的问题、数据测量的尺度,以及数据的分布形态,等。统计分析方法没有高低之分,适合最重要。

这部分主要是对数据进行统计分析,并对分析结果进行统计学解读。(一些论文在数据分析及结果部分只会对模型进行检验与修正,而不另外对问卷数据进行SPSS中的假设检验分析。)

这部分是在Amos等结构方程建模工具中,根据研究论文的概念模型建立结构方程模型,并通过模型拟合指数考察概念模型与数据的适配程度。

如果模型拟合效果不好,则需要进一步根据模型修正指标进行模型修正,使模型结构更加简洁、合理。

当然,模型拟合指数并不是判断模型好坏的唯一依据,还需要结合研究领域的专业知识进行综合考量,考虑修正后的模型结果是否具有现实意义或理论价值。

结论与建议部分通常可以包括:研究结论探讨、研究建议、研究局限和展望。

对之前的研究假设、问题研究结果提出理论上的解释,总结陈述你的研究观点和发现,并就此提出有建设性的建议和实践启示。最后再反思研究的局限性,说明未来的研究方向,等。

800万大学生都在用的免费平台

}

)网站进行代谢通路的富集分析,进一步研究生理标志物所涉及到的代谢途径以及彼此之间的关联性,寻找与生理最相关的代谢途径,从而预测生理可能的作用机理。
上述实施例,通过单变量分析方法和多变量分析方法针对质谱检测数据进行筛选,并将筛选得到的代谢物对应的差异质荷比输入预设的代谢通路数据库进行检索定性,得到第一数量的差异标志物;将第一数量的差异标志物输入预设的代谢通路分析网站进行通路分析,得到生理代谢途径,提供了一种有效的差异标志物筛选方法,并可得到相应的代谢途径,进一步为特定生理状态预测和判别提供了准确的依据。
在一实施例中,上述依次通过单变量分析方法和多变量分析方法针对质谱检测数据进行筛选,得到满足预设条件的变量,包括:通过t检验方法针对所述质谱检测数据进行筛选,得到区间概率低于第一参考阈值的第一变量组;通过变量重要性投影值方法针对所述第一变量组进行分析,得到vip值高于第二参考阈值的第二变量组。
具体地,标志物筛选采用t检验与变量重要性投影值(variable importance in the projection,vip)两种方法结合。先进行单变量分析,采用t检验筛选出具有统计学差异的变量,用p值(区间概率)表征。若p《0.05,则代表该特征变量在不同组别中具有显著性差异。基于此结果,再进行多变量模型中的vip值分析,通常依据变量数目来挑选vip值大于
1到2区间的变量作为潜在差异标志物。最终筛选出潜在的差异标志物,探索其生物代谢机制。
上述实施例,通过设置不同的阈值删选得到差异标志物,为后续进行预测识别提供数据铺垫。
在一实施例中,上述第一数量的差异标志物包括:环己烷、(s)-3,4-二羟基丁酸、5-甲基-2-乙酰基呋喃、2-正丙基呋喃、当归内脂、3-氨基丙腈、水杨酸乙酯、对甲酚、己醛、2-甲基呋喃、胆碱。
具体地,将差异质荷比输入代谢通路数据库hmdb与kegg进行检索定性,结合了文献、物质电离能、vocs定义共同比对出11种差异标志物,分别为:环己烷、(s)-3,4-二羟基丁酸、5-甲基-2-乙酰基呋喃、2-正丙基呋喃、当归内脂、3-氨基丙腈、水杨酸乙酯、对甲酚、己醛、2-甲基呋喃、胆碱。
可选地,后续为了再次验证差异标志物的筛选是否准确,还将采用gc-ms对物质进行定性分析,清楚地表征差异标志代谢物的组分,同步验证质谱筛选标志物结果的可靠性。
上述实施例,通过对差异标志物定性,得到具体的差异标志物类别,为生理状态的判别提供了确凿的依据,也为生理状态的分析提供了有效依据。
在一实施例中,如图4所示,图4示出了一具体应用场景中的基于代谢组学的生理预测方法的数据分析流程图,主要包括:
采集呼气样本数据,本实验共采集到呼气样本153例,包括处于特定生理状态的人88例,处于其他生理状态的志愿者65例作为参照组。
本发明对153例原始数据进行缺失值去除与填补、标准化处理后,从原来的310个质谱峰中筛选出了56个作为新变量。接下来对预处理前后的数据分别进行可靠性分析,预处理前信度系数为0.575,预处理后为0.995,较之前有了显著提高,因此判断预处理效果较好。通常时,说明数据信度佳,该结果也能表明后续评价结果是可信的。
本发明联合三种不同分类方法来区分特定生理状态组与参照组呼气质谱数据的差异。首先选取无监督的pca作为预分析步骤,用于直观地描述组别之间是否具有分类趋势。输出结果r2x表征了模型拟合出的主成分涵盖所有观测值信息的百分比,结果显示r2x=0.656,已经明显高于0.4,说明拟合效果较好,由图5可知,特定生理状态组与参照组分离趋势明显,但特定生理状态组中出现有少数几个异常点偏离出95%置信区间。
为了进一步确定组间差异,建立opls-da模型进行分析,该模型的拟合效果通常用r2y和q2y两个指标表征。r2y表示模型拟合出的主成分可以解释样本所有变量的百分比,q2y则通过交叉验证计算得出,用以评价模型的预测能力。通常情况下,r2y和q2y越接近1分别表示模型的拟合效果和预测效果越好。由图6可知,r2y=0.955,表明模型拟合出的主成分具有较高的解释率;q2y=0.935,表示模型的预测准确率达93.5%,模型对未知样本的预测能力较为准确。此外,特定生理状态组与参照组同样在95%置信区间内呈现出显著的组间差异,与pca的分类趋势相同,说明两组样本的呼气vocs差异明显;同样明显的组内聚集趋势,
也表明同组样本自身的差异性较小,可以推断出样本具有较好的平行性。
最后,本研究还采用ann算法对样本数据建模分析。ann是一个具有学习能力的系统,153例样本随机分成训练集、验证集,其中训练集111例样本,占总样本数72.5%,包括特定生理状态组63例,参照组48例;验证集42例样本,占总样本数27.5%,包括特定生理状态组25例,参照组17例。将差异变量输入模型进行统计学分析后,得出ann模型的分析结果。验证结果显示,25例特定生理状态组全部判断正确,17例参照组有1例判错,误认为是特定生理状态组。ann预测的准确率达到97.6%,说明神经网络分类效果良好,充分说明了生理状态呼气鉴别的有效性和可靠性。
采用permutation验证opls-da模型是否出现过拟合现象,其中,r2为累计方差值,q2为累积交叉有效性,一般情况下,r2《0.5,q2《0,则认为模型没有出现过拟合。本发明进行了200次置换验证的结果如图7所示,r2=0.158和q2=-0.366,远低于原始模型的r2与q2值,表明opls-da模型不存在过度拟合现象,并具有可靠的判别与预测能力。
采用受试者工作特征roc曲线对ann模型的分类能力进一步验证,roc曲线是研究模型灵敏度和特异性之间相互关系的方法,评估依据是比较曲线下方的面积auc大小,auc越接近于1,则代表模型性能越好,由图8可得,特定生理状态组与参照组的auc均为0.999,接近于1,说明模型具有良好的分类效果,适合用于不同组的判别分析。
为了客观、全面地评价每个变量的重要性,本发明结合了两种标志物筛选方法,先进行单变量分析,采用t检验筛选出p《0.01的变量,总计39个;基于此结果,再进行多变量模型中的vip值分析,挑选出vip》1.2的变量,总计13个。两种方法结合挑选出的质荷比(m/z)分别为:84、120、124、110、98、70、166、355、357、108、100、82、104。
将差异质荷比输入代谢通路数据库hmdb与kegg进行检索定性,结合了文献、物质电离能、vocs定义共同比对出11种差异标志物,分别为:环己烷、(s)-3,4-二羟基丁酸、5-甲基-2-乙酰基呋喃、2-正丙基呋喃、当归内脂、3-氨基丙腈、水杨酸乙酯、对甲酚、己醛、2-甲基呋喃、胆碱。后续为了再次验证差异标志物的筛选是否准确,还将采用gc-ms对物质进行定性分析,清楚地表征差异标志代谢物的组分,同步验证质谱筛选标志物结果的可靠性。
本发明将11个差异代谢物输入metpa网站进行通路分析,寻找与特定生理状态最相关的代谢途径。如图9所示,图9为通路分析概图,横坐标表示代谢通路的重要性,纵坐标表示代谢通路富集分析的显著性水平,本实施例中的特定生理状态主要参与了3条代谢通路,包括类固醇激素生物合成代谢、甘氨丝氨酸与苏氨酸代谢、甘油磷脂代谢等通路。
另外,如图10所示,图10展示了另一组差异标志物的质谱图,在本实施例中,由特定生理状态组和参照组的呼气质谱数据得知,在m/z 50~359范围内,两组呼出气代表样品中检测到的质谱峰种类差别不大,特定生理状态组和参照组均在m/z 58、68、87、94、106、136、281和355处出现了不同的相对强度的峰,部分初步定性为丙酮(m/z 58)、异戊二烯(m/z 68)、苯酚(m/z 本实施例通过对呼气质谱原始数据展开分析,建立一套适合用于生理状态预测和
判别的模型与分析方法,该方法从代谢组学的流程出发,运用了多种分析方法交互验证,相比于单一的数据处理具有更全面的分析结果,可以极大提高特定生理状态的判别与预测的准确度与分类效率;另外,本实施例还提供了一种差异标志物筛选方法,通过对特定生理状态群体与参照群体的呼气代谢组学分析,筛选出两者之间存在13种差异代谢物质,为特定生理状态的判别提供实验基础,同时为特定生理状态的预测和判别研究提供了理论支持。
应该理解的是,虽然图1-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-4中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,提供了一种基于代谢组学的生理筛查装置1000,包括:数据获取模块1001、概率值预测模块1002和结果确定模块1003,其中:
数据获取模块1001,用于获取待检测呼气样本的质谱检测数据;
概率值预测模块1002,用于通过预先构建的多元统计分析模型针对所述质谱检测数据进行生理预测,得到各个预测类别的概率值;
结果确定模块1003,用于根据各个所述预测类别的概率值确定所述待检测呼气样本对应的生理预测结果。
在一实施例中,上述概率值预测模块1002进一步用于:
通过所述主成分分析模型针对所述质谱检测数据进行降维处理,得到降维后的质谱检测数据;通过所述正交偏最小二乘法判别分析模型针对所述降维后的质谱检测数据进行回归分析,得到每种代谢物的vip值;根据所述每种代谢物的vip值通过训练好的人工神经网络模型进行预测识别,得到各个所述预测类别的概率值。
在一实施例中,上述数据获取模块1001,还用于:
通过预设的规则针对所述质谱检测数据的缺失值进行数据筛除,得到第一质谱检测数据;通过预设的填补法针对所述第一质谱检测数据的缺失值进行填补,得到第二质谱检测数据;通过z标准化方法针对所述第二质谱检测数据进行标准化处理,得到预处理后的质谱检测数据。
在一实施例中,上述数据获取模块1001,还用于:
获取训练集呼气样本的质谱检测数据;所述训练集呼气样本的质谱检测数据对应有特定生理状态的真实类别和/或参照组类别;利用所述训练集呼气样本的质谱检测数据对所述多元统计分析模型进行训练,得到所述预先构建的多元统计分析模型。
在一实施例中,上述基于代谢组学的生理筛查装置1000,还包括标志物获取单元1004和代谢途径查找单元1005:
标志物获取单元1004,用于依次通过单变量分析方法和多变量分析方法针对质谱检测数据进行筛选,得到满足预设条件的变量;将所述满足预设条件的变量对应的差异质荷比输入预设的第一代谢通路数据库进行检索定性,得到第一数量的差异标志物;
代谢途径查找单元1005,用于将所述第一数量的差异标志物输入预设的第二代谢通路分析数据库进行通路分析,得到生理代谢途径。
在一实施例中,上述标志物获取单元1004,进一步用于通过t检验方法针对所述质谱检测数据进行筛选,得到区间概率低于第一参考阈值的第一变量组;通过变量重要性投影值方法针对所述第一变量组进行分析,得到vip值高于第二参考阈值的第二变量组。
在一实施例中,上述第一数量的差异标志物包括:环己烷、(s)-3,4-二羟基丁酸、5-甲基-2-乙酰基呋喃、2-正丙基呋喃、当归内脂、3-氨基丙腈、水杨酸乙酯、对甲酚、己醛、2-甲基呋喃、胆碱。
关于基于代谢组学的生理预测装置的具体限定可以参见上文中对于基于代谢组学的生理预测方法的限定,在此不再赘述。上述基于代谢组学的生理预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储质谱检测数据以及预测结果数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于代谢组学的生理预测方法。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only 以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并
不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。

}

我要回帖

更多关于 数据分析模型20种 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信