《环境与职业医学》杂志官方网站 《环境与职业医学》杂志官方网站

首页> 写作园地> 新闻详情页

《环境与职业医学》杂志官方网站

主办

上海市疾病预防控制中心

中华预防医学会

主管

上海市卫生和计划生育委员会

中国标准连续出版物号

ISSN 2095-9982

CN 31-1879/R

出版日期

月刊每月25日

数据库收录

  • 中国科学引文数据库(CSCD)源期刊
  • 中文核心期刊(北大核心)
  • 中国科技论文统计源期刊(科技核心)
  • 英国《全球健康》数据库
  • CABI数据库
  • 美国剑桥科学文摘(自然科学)
  • 乌利希国际期刊指南
  • 美国化学文摘(CA)数据库
  • RCCSE中国核心学术期刊(A)

职业紧张研究中的数据处理与统计方法

近年来,国内的研究者越来越关注职业紧张领域的研究,在国内外期刊上发表的论文逐年增多。但笔者发现,在职业紧张相关的调查研究中,对于数据处理和统计方法应用方面常存在较多错误和不足,致使研究结果难以正确、科学、充分地呈现。笔者根据多年来的研究和阅读文献的体会,对有关职业紧张研究的数据处理和统计方法在应用中的常见问题加以梳理,本文予以报道,供同行参考。

 

1.问卷条目应答不全资料的处理

为了调查到真实的情况,职业紧张问卷调查一般采用匿名调查方式,存在调查对象的依从性和配合问题,被调查对象对条目的含义不理解或理解片面等都会影响对调查问卷条目的应答,致使条目的应答不全。如果将部分应答不全的资料全部删去,则会丢失大量的样本,产生选择偏倚。

目前国际上对应答不全资料主要采取下列方式处理,当量表或子量表由4个条目组成时,一个条目的无应答是可以接受的,缺失的数据用该条目有应答数据的均值替代;对于工作紧张模式问卷,多数作者采取当子量表有1~2个条目无应答时,缺失的数据用该条目有应答数据的均值替代;对于付出-回报失衡模式问卷,建议子量表无应答条目在50%及以下,缺失的数据用该条目有应答数据的均值替代,超过50%无应答条目,则这个个体的数据不纳入统计处理。

余善法等在研究中采取的处理方法是如果一个多条目(10个条目以上)量表或子量表的无应答条目在3个及以下,则缺失的数据用该条目有应答数据的均值替代,超过4个无应答条目,则这个个体的数据不纳入统计处理。对于条目数少于10的量表或子量表有1~2个条目无应答时,缺失的数据用该条目有应答数据的均值替代。

2.依据评分确定组别的界值

在职业紧张调查数据的分析时,经常要依据评分的高低对调查对象进行分组,目前有3种界值:(1)评分的均值;(2)评分的中位数;(3)三分位数或四分位数。这是导致研究结果无法比较的一个主要问题,因此在比较不同研究结果的异同时,应注意不同研究间评分界值是否相同。

3种界值无优劣之分,研究者可根据自己的研究目的、样本量等进行选择,如样本量大可考虑三分位数或四分位数,如样本量较小则考虑均值或中位数。近年来,对不同的变量进行组合分析逐渐增多,如依据工作紧张模式和付出-回报失衡模式主要因子评分分别将研究对象分为4个不同的组别,即:(1)低需求(付出)高控制(回报),(2)高需求(付出)高控制(回报),(3)低需求(付出)低控制(回报),(4)高需求(付出)低控制(回报)。

此外,根据工作紧张模式和付出-回报失衡模式的理论,分别计算心理需求与控制水平的比值、躯体需求/(控制水平×0.5556)值和付出/(回报×0.5454)值,以衡量工作紧张和付出-回报失衡的程度(紧张水平),两者均以1为界值对研究对象进行分组。

3.常模应用需注意的问题

职业紧张研究涉及两个方面的常模,一个是职业紧张问卷常模,一个是心理健康问卷常模。

关于职业紧张问卷常模,尽管国际上使用的职业紧张问卷有几十种,但目前的文献仅见少数问卷有科学合理的常模数据,如英国曼彻斯特大学COOPER等编著的职业紧张指标(OSI)的英国常模,大多数问卷无常模数据,可能与研究常模需要有充分代表性的不同人口统计学特征分布的大样本有关,而这一点往往很难做到。

关于心理健康问卷的常模,存在的主要问题是一些常模数据调查的年代已距今二三十年,加之心理健康受社会经济等因素影响较大,已丧失可比性,故比较的结果也无科学性和实际意义,应慎用。即便是近年的常模,也应考虑常模制定的背景、有无可比性、比较结果的正确解释等问题。

4.研究结果数据的分布特征

职业紧张研究中有心理变量和生理变量。目前心理变量多视为正态分布,但NAKATA等在最近的一项研究中发现,抑郁症状评分不呈正态分布。生理变量如体液指标,尤其是唾液、尿液指标多呈非正态分布。因此,在数据分析时,应首先对心理变量和生理变量进行正态性检验,将非正态数据转换成正态分布数据,以适应统计方法对数据分布的要求或使用非参数统计方法。

NAKATA等在分析工作满意感、协变量和免疫标志的关系时,对所有免疫标志、年龄、体质指数(BMI)及抑郁症状评分进行以10为底的对数转换,使数据更符合正态分布。

余善法等在装配线工人职业紧张与唾液考的松、sIgA和溶菌酶水平关系的研究中发现,唾液考的松、sIgA和溶菌酶浓度呈正偏态分布,于是在数据分析前,即对原始数据进行常用对数转换。

5.相关分析方法的应用

在研究职业紧张的文献中,多使用相关分析来考察职业紧张因素、个体特征变量与紧张结局变量之间的关系。但在具体的使用过程中,应根据数据的分布情况选择正确的相关分析方法,如果数据呈正态分布,则使用Pearson相关分析;若数据呈非正态分布,则使用Spearman相关分析,或将原始数据转换成正态分布数据后,使用Pearson相关分析;若是等级资料,则使用等级相关分析。国外的文献多使用Spearman相关分析。

对结果的解释应考虑相关系数的大小,若相关系数较小,即使有统计学意义,其实际的意义也是有限的,这时结论的推论应留有余地。

6.配对资料分析

为了消除或控制混杂因素的影响,有的研究需要对数据进行配对分析,其结果更有科学价值和说服力。但配对因素的选择要考虑样本量,样本量较大时可考虑多个配对因素,样本量较小时则配对的因素不宜过多,总的原则是保证配对后各组有足够的例数。

余善法等在分析性别对职业紧张测试结果的影响时,考虑到年龄、文化程度和所从事的职业对研究结果可能存在影响,不同性别组间进行上述三因素配比,使得各组间构成差异无统计学意义,则结果提示,性别对某些职业紧张测试结果有影响。

在一项火车司机职业紧张因素分析的研究中,作者以某铁路局1116名男性火车司机为研究对象,严格按照年龄(95%相等,其余相差<0.5岁)、文化程度和婚姻状态等同配对的原则选择其中客车和货车司机各241名进行分析,得出客车司机的紧张度大于货车司机的结论。

7.协方差分析

心理健康研究结果的变量受人口统计学特征影响较大,单因素分析时由于组间人口统计学特征变量构成不均衡,结果会受混杂因素的影响,可能会出现错误的结果,这时应考虑使用协方差分析。

在一项职业紧张与抑郁症状关系的性别差异分析中,作者在进行资料的预分析时,发现年龄、工龄、文化程度和工种对职业紧张因素和抑郁症状评分存在影响,年龄和工龄效应一致,因此人口统计学特征组间差异分析采用协方差分析,以控制比较组间年龄、工龄、文化程度和工种构成的不均衡对结果的影响。

8.分层多元回归分析

分层多元回归分析(HMLR)是职业紧张研究常用的统计方法,用于比较或确定不同因素的效应大小,分析交互作用。

NAKATA等使用分层多元回归分析探讨免疫标志物与工作满意感和协变量的关系,第一步引入工作满意感、年龄、文化程度、吸烟、饮酒量、体育锻炼、睡眠、体质指数、药物使用等变量,第二步引入抑郁症状和工作中的人际冲突不良,第三步引入职业种类、公司类型和工作时间等职业因素。在这个分析中,药物使用、职业种类和公司类型为分类变量,其余因素为连续变量,应变量免疫标志物水平为连续变量。

余善法等使用分层多元逐步回归分析探讨了职业紧张因素、工作心理控制源以及两者的乘积对紧张结局的效应,分析因素的独立和交互作用。第一步引入职业紧张因素,第二步引入工作心理控制源,第三步引入职业紧张因素与工作心理控制源的乘积。

9.logistic回归分析

logistic回归分析是职业紧张研究数据分析的另一种常用多因素统计方法。国际上早年的文献和国内的作者通常先进行单因素logistic回归分析,筛选出有统计学意义的自变量,然后再将这些自变量引入方程进行多因素logistic回归分析。但近期国外的文献多直接进行多因素logistic回归分析。

logistic回归分析时,应注意对分类变量进行哑变量的转换,一般年龄、工龄等应作为连续变量处理,应变量为分类变量,如疾病的有无,评分的高低等。对结果进行解释时,应注意自变量作用的方向、OR值的大小及可信区间和变量的统计学意义等,变量OR95%可信区间畸宽提示样本量不足、数据质量不高和变量数据分组不合理。

余善法等使用logistic回归分析对肌肉骨骼系统症状及其相关危险因素、职业紧张与下肢肌肉骨骼系统疾患的关系、职业紧张与抑郁症关系的性别差异进行探讨,得到了较好的结果。LEE等使用该方法对上肢肌肉骨骼系统疾患的社会心理危险因素进行分析,也得到较好的结果。

10.结构方程模型的应用

目前在职业紧张研究中,多使用结构方程模型(SEM)来分析问卷的结构效度和职业紧张因素与紧张结局之间的关系。

在对问卷结构效度进行分析时,SEM具有如下优点:将测量误差从变量的变异量中分离出来,使得因子负荷具有较高的精确度;可根据理论假设,一个条目可以同时分属于不同因子;自由设定某些因子之间具有或不具有相关;可同时估计因子结构和因子关系。

因此,采用SEM对问卷结构效度进行分析,具有更高的准确性和自由度,这种方法更能满足现实的应用条件。在实际的分析过程中,应使用不同的指数检验模型的拟合度,最常见的模型拟合指数有适合度指数,包括拟合指数(GFI)、调整拟合指数(AGFI)、正规拟合指数(NFI)、非正规拟合指数(NNFI)、增量拟合指数(IFI)和替代性指数,包括平均概似平方误根系数(RMSEA)、比较适合度指数(CFI)等几种。GFIAGFI一般需要大于0.90才可以视为理想的拟合度,NFINNFIIFI数值越大表示拟合度越佳,同时系数值需大于0.90也才可以视为理想的拟合度。RMSEA数值越大代表模型越不理想,数值越小代表模型拟合度越理想,一般以0.05为良好拟合的门槛,以0.08为可接受的拟合门槛。CFI一般以0.95为通用的门槛,同时在小样本的SEM分析中,用来评估模型拟合度十分稳定。

在结果的解释时,应注意由于所得的结果受到研究设计的限制,一般只能进行变量的预测或解释,而不能推论因果关系;SEM一个最主要的目的是检验研究者所提出的理论或概念架构是否具有实证的意义,本身无法创造知识或理论,需要研究者在整理前人的理论或知识的基础上,构建一套适当的概念模型,再使用SEM技术协助研究者完成模型的分析与讨论,不能过度依赖技术指标的数据和进行过度推论;SEM分析的结果应仅就该研究所使用的样本与所检验的变量关系来讨论,分析的证据可以说明某一个因果概念是可能存在的,但是不能据此排除其他模型的存在。

 

参考文献:

余善法. 职业紧张研究中的数据处理与统计方法[J]. 环境与职业医学, 2013, 30(7):494-497.

《环境与职业医学》杂志官方网站
《环境与职业医学》杂志官方网站