《环境与职业医学》杂志官方网站 《环境与职业医学》杂志官方网站

首页> 当期目录> 正文

2018, 35(12):1106-1113.doi:10.13213/j.cnki.jeom.2018.18412

应用聚类分析识别上海浦东新区道路交通事故模式


1. 复旦大学公共卫生学院职业卫生教研室, 上海 200032 ;
2. 复旦大学浦东预防医学研究院职业人群健康研究室, 上海 200136 ;
3. 上海市浦东新区疾病预防控制中心肿瘤与伤害防治科, 上海 200136

收稿日期: 2018-06-18;  发布日期: 2019-01-07

基金项目: 浦东新区卫生和计划生育委员会卫生科技项目(编号:PW2016A-8)

通信作者: 金克峙, Email: zhkjin@fudan.edu.cn  

作者简介: 王亚(1994-), 女, 硕士生; 研究方向:伤害流行病学; E-mail: 应佳丽(1989-), 女, 硕士, 医师; 研究方向:伤害防治; E-mail:

[目的] 应用聚类分析方法对道路交通事故进行分类,识别不同事故的发生模式,为制定适应不同事故模式的干预措施提供依据。

[方法] 从上海市浦东新区交警事故处理记录数据库中调取自2010年1月1日—2016年12月31日期间共3 135起事故主要责任人信息。选取年龄、性别、时间、季度、天气、道路类型、路口路段、交通方式、事故原因9个变量作为分析变量,分别采取潜类别分析与系统聚类两种方法对交通事故进行聚类,分析聚类结果与伤害结局。

[结果] 潜类别分析可识别更多事故模式类别,优于传统系统聚类方法,潜类别分析聚类结果将事故发生模式分为6类,分别命名为“青中年机动车公路组”“青中年客车一般道路组”“青中年夜间摩托客车无证酒驾组”“中老年电动车自行车组”“中老年早晚步行组”“青中年深夜机动车组”。各类别间伤害结局存在统计学差异(χ2=1 492.492,P < 0.05),且伤害结局与事故分类具有相关关系(r=0.568,P < 0.05)。各类别对健康结局的贡献以“中老年早晚步行组”最大,“中老年电动车自行车组”次之,“青中年客车一般道路组”最小。对比原始数据logistic回归模型与各类别logistic回归模型结果,发现事故被分类后,增加了新的伤害危险因素信息,且同一个自变量值在不同的事故模式中对伤害结局的贡献不同。

[结论] 对于本研究所用特定数据库潜类别分析在道路交通事故发生模式识别的结果优于传统聚类分析。中老年步行、骑行电动自行车违规横过机动车道以及青中年夜间驾驶机动车为该地区伤害高风险变量组合。

关键词: 道路交通伤害;  聚类分析;  潜类别分析;  系统聚类;  道路交通伤害预防 

浦东新区地处上海市东部,为上海市人口最多的行政区,区内人口密度为2 301人/km2,全区路网稠密,包含公路、高速、高架等多种道路类型,2011年公路里程达1 936.99 km[1]。随着近年来经济的快速发展,城市机动车保有量及驾驶员人数快速增长,2002—2015年期间,浦东新区交通事故粗死亡率为10.72/10万,高于全国平均水平[2]。提高道路交通安全水平策略之一是对可变危险因素进行有效干预,但由于交通事故数据的异质性,一些危险因素对交通伤害的影响可能会被隐藏或弱化[3]。通常改善事故数据异质性的方法是选择特定的事故类型进行研究[4],即通过增强事故的同质性,为探索事故或事故所致伤害的发生机制提供思路。

聚类分析是数据挖掘的一种常用方法,可以将性质相同的数据归为一类,以减少数据的异质性。潜类别分析(latent class analysis,LCA)[5]与系统聚类均是常用的聚类分析方法,所依据的原理和算法不同,其结果和应用也有差异。国外已有应用LCA对交通事故进行聚类的先例:SASIDHARAN等[6]应用LCA将行人事故分为7类,区分了不同时间、不同原因的行人事故模式;KAPLAN等[7]应用LCA将自行车事故分为13类,区分了城市与乡村之间不同的自行车事故模式。本研究利用2010—2016年浦东交警事故处理记录,将人、车、路、环境因素分别进行LCA与经典系统聚类,获取该地区特征性的道路交通事故分类,并对比分类结果,从不同角度探究该地区道路交通事故的发生模式与危险因素,为揭示该地区道路交通事故的发生机制和修订相应政策提供思路。

1   材料与方法

1.1   数据来源

本研究数据来源于上海市浦东新区交警大队事故处理数据库,调取2010年1月1日—2016年12月31日期间上海市浦东新区交警事故处理记录中采用以一般程序处理并录入的事故记录,共计3 545起事故,事故涉及8 270人。为满足模型分析独立性的要求,以事故责任项作为筛选变量,排除空缺及无法认定的记录后,将每起事故中的主要责任人相关联的事故记录信息纳入分析,共3 135条事故主要责任人记录。本研究中“事故主要责任人”定义为数据库条目中事故涉及人的事故责任定性为“全部”或“主要”;若同一事故中出现多于一条事故责任定性为“同等”的事故记录,则以随机数法纳入随机数较小的事故记录相关事故涉及人为事故主要责任人。

1.2   研究因素

本研究基于一般程序处理事故处理记录的内容,同时参考道路交通伤害的危险因素,将年龄、性别、时间、季度、天气、道路类型、路口路段、交通方式、事故原因纳入分析。

1.3   统计学方法

1.3.1   LCA

选取数据库中年龄、性别、时间、季度、天气、道路类型、路口路段、交通方式、事故原因9个变量作为LCA建模的外显变量,分别以ABCI表示,每个外显变量的分类水平以abci表示。本研究假定所用的数据是浦东道路交通安全事故的1个代表性样本,该样本中隐含有未声明的事故特征模式。LCA通过建立描述该样本的概率模型生成潜变量,这些潜变量是事故特征变量的特定组合,因此定义为“事故类别”。假设事故类别Xn个类别,则数学模型为:$ {\rm{ \mathsf{ π} }}_{abc \ldots i}^{ABC \ldots I} = \sum\limits_{n = 1}^n {{\rm{ \mathsf{ π} }}_n^X{\rm{ \mathsf{ π} }}_{an}^{AX} \ldots {\rm{ \mathsf{ π} }}_{in}^{IX}} $。其中,$ {\rm{ \mathsf{ π} }}_{abc \ldots i}^{ABC \ldots I} $为模型的联合概率,$ {\rm{ \mathsf{ π} }}_n^X $为模型的潜在类别概率,即为事故类别X在第n个水平的概率,概率越大代表该类别在群体中数量越多,为条件概率,即为第n个事故类别在变量A的第a个水平的反应概率,概率越大代表外显变量在该水平显著性越高。每个类别中条件概率的分布反映该事故类别的主要特征。

假设模型事故类别个数从1开始,即假设所有事故为1类,逐渐增加模型中事故类别的个数,直到模型拟合达到最优的类别个数,此时所有事故的分类效果达到最优。模型评价主要包括似然比卡方检验(G2),赤池信息量准则(AIC)、贝叶斯信息准则(BIC)、调整赤池信息量准则(CAIC)等,大样本资料选用BIC更为可靠,小样本资料选择AIC更为适合[5],本研究选择BIC为模型评价指标,BIC值越小代表模型拟合越好。

模型类别个数确定后,根据后验概率将样本中的个体归入不同的事故类别中,实现同质性事故的聚类。

1.3.2   系统聚类

采用系统聚类中的样品聚类(Q型聚类),即对事故记录进行聚类。同样假设所用样本具有未声明的同质性,即事故特征(所选变量的组合)有不同的分类。样本之间的差距用平方欧氏距离表示,类别之间的差距用离差平方和表示,聚类方法采用瓦尔德法。聚类步骤包括首先进行探索性系统聚类,不设定类别个数,然后根据聚类树状图结果,按照(1)类别间距离足够大;(2)类别内所含元素不能太多;(3)类别的个数在实际中可以解释等原则确定类别个数,对样本进行确定性聚类,观察各个类别的特点。

1.3.3   模型比较

根据LCA和系统聚类的概率分布情况,对比两种方法对交通事故的聚类效果,选择聚类效果最优的结果。计算各类别中的事故数量,并以伤害结局为应变量,各类别为自变量,进行二分类logistic回归,其中有伤害赋值为1,无伤害赋值为0;类别作为分类变量,设置5个哑变量,类别1为(0,0,0,0,0),类别2为(1,0,0,0,0),类别3为(0,1,0,0,0),类别4为(0,0,1,0,0),类别5为(0,0,0,1,0),类别6为(0,0,0,0,1),用于评价各个类别对伤害发生的贡献。同时以伤害结局为应变量,时间、年龄、性别、交通方式、道路类型、路口类型、事故原因为自变量,以原始数据和分类后数据分别建立logistic回归模型,比较两个数据模型分类结果中主要特征变量的区分程度,以及类别增加信息的可解释性和指导潜在公共卫生措施或政策的意义。

本研究的LCA采用SAS 9.4 Proc LCA模块进行分析[8],系统聚类采用SPSS 24.0完成。

2   结果

2.1   浦东新区交通事故描述性结果

本研究共纳入3 135条事故责任人信息,其中有伤害人数1 317条,无伤害人数1 818条。除天气和季度因素在两组间无差异外,其他研究因素在两组间均有统计学差异,见表 1

表1

上海市浦东新区交通事故特征描述性结果(n,%)

2.2   模型拟合结果

LCA模型拟合结果如表 2所示,当潜类别个数为6时,此时BIC最小,随后BIC值增大,所以取模型类别个数为6时最佳。系统聚类根据聚类树状图(未列出)选择取5类为最佳。

表2

LCA模型拟合结果

2.3   LCA与系统聚类结果比较

LCA与系统聚类结果的类别概率与条件概率分布见表 3。两种方法的分类结果按类别概率从大到小排列,按条件概率进行特征命名,见表 4。从类别概率来看,LCA的6个类别中概率小于0.1的仅一项,其他5个类别贡献了92%的事故概率;系统聚类的5个类别概率中概率小于0.1的共两项,其他3个类别贡献了91%的事故概率。

表3

道路交通事故LCA与系统聚类结果类别概率和条件概率分布

表4

LCA和系统聚类分类特征及命名

对比事故责任人特征的条件概率,两种分析方法相同点有:(1)各分类均以男性为主(条件概率均> 60%);(2)年龄 < 20岁和事故原因中违法变道、违法占道、未保持安全车距和未让行等变量的条件概率均低于0.2;(3)类别概率最大的两个类别的主要事故原因的条件概率均为无法归类的“其他违法操作”或者“其他操作不当”。两种分析方法单个变量条件概率的不同主要体现在:系统聚类结果中凌晨2—5点、快速路、高架路段、自行车和违规横过机动车道等变量的条件概率均低于0.2,即在系统聚类中这5个变量的信息对分类贡献低。如在快速路和高架路段,系统聚类的各类条件概率均低于0.2,据此推断快速路的高架段发生道路交通伤害的概率很低;而LCA则识别出一类(第6类)快速路条件概率大于0.9,高架路段条件概率大于0.5的情况,考虑同类内其他变量的条件概率,推断该类伤害为中青年深夜驾驶机动车的特征;提示对于所使用的特定数据库,系统聚类对数据库所含信息的利用度弱于LCA。

相对于事故责任人中均以男性为主的情况,LCA结果中女性条件概率最大的出现在第5类(0.361 8),系统聚类分析结果出现在第3类(0.258 6)。根据同类其他变量的条件概率,可见LCA结果第5类特征为60岁以上人群在早晚高峰时段的非快速路的普通路段,以步行为主、因违规横过机动车道而发生伤害事故。而系统聚类分析结果中第3类特征为40岁以上人群在早晚,尤其是18—21点时间段,在非快速路非高架段,以电动自行车和步行的方式,因违反交通信号灯而发生伤害事故。由此可见,系统聚类分析结果除快速路、高架段信息和自行车方式无法利用外,年龄段和步行方式变量的区分度不高。

图 1中气泡大小代表不同分析方法所得类别重合事故数。总体上看,两种方法的分类结果不完全一致。如交通方式,LCA类别1、2、3、6均为机动车(客车/货车/摩托)事故,类别4、5为非机动车和行人事故;系统聚类结果的类别1、2、5为中型或大型机动车事故,类别4为小型机动车(摩托)和非机动车事故,类别3为非机动车和行人事故。可见,系统聚类第3类中步行部分被LCA第5类纳入,非机动车部分被LCA第4类纳入,系统聚类第4类中机动车部分被LCA第3类纳入,电动车部分被LCA第4类纳入。

图 1

LCA与系统聚类分类数量对比气泡图

综上,对于本研究所用数据库,系统聚类方法存在多个变量信息利用度以及区分度弱于LCA方法的特点,因此仅对LCA的分类结果与交通伤害发生风险之间的关系进行建模分析。

2.4   LCA分类结果建模

表 5所示,根据类别概率的大小,LCA各类别分类结果为:类别1共计1 008人,类别2共计630人,类别3共计438人,类别4共计482人,类别5共计332人,类别6共计245人。各类别间伤害结局经卡方检验有统计学差异(χ2=1 492.492,P < 0.05),且伤害结局与事故分类具有相关关系(列联系数=0.568,P < 0.05)。

表5

LCA分类结果及各类别伤害发生构成比(n,%)

logistic回归结果如表 6所示,各类别对健康结局的贡献以“中老年早晚步行组”最大,“中老年电动车自行车组”次之,“青中年客车一般道路组”最小。

表6

LCA分类与伤害结局的logistic回归分析

2.5   原始数据与LCA分类后数据logistic回归模型结果对比

将伤害结局为应变量,时间、年龄、性别、交通方式、道路类型、路口类型、事故原因为自变量,比较原始数据logistic回归模型与分类后数据logistic回归模型(将原人群分为6类后分别进行回归分析),观察潜分类数据模型增加的交通事故危险因素内容。如表 7所示,时间因素中,22—1点在类别6中为新增项,城市快速路在类别1中增高,货车在类别3中为新增项;事故原因中逆行、违法占道、违反交通信号灯、未保持安全车距等也均有增高,违法占道与违规横过机动车道为模型新增加的有效项。因而可以认定在本研究中事故被分类后增加了新的伤害危险因素信息,且同一个自变量值在不同的事故模式中对伤害结局的贡献不同。

表7

原始数据与分类后数据logistic回归结果对比(OR,95%CI

3   讨论

本研究采用LCA和系统聚类两种聚类分析方法对交通事故数据进行分析,两种方法均为探索性聚类分析方法,由原始事故数据变量之间的关联模式定义模型类别个数,进而推导事故所属类别,整个过程揭示数据外显变量所“隐含”的统计学关系。以往对交通事故数据的聚类研究多采用模糊聚类、系统聚类的方法,聚类指标多用“事故次数”“受伤人数”“死亡人数”“经济损失” 4个指标对事故进行分类。一项纳入多个事故有关因素的聚类研究证明[9],驾驶人危险行为与外界环境因素存在关联,但未对其进行明确命名。本研究将人、车、路相关的9个因素纳入分析,采用系统聚类和LCA两种方法对比分类效果,因两者之间聚类原理和算法、类别个数判断标准、类别特征解读的依据不同,得出的结果存在差异。聚类分析用选定的指标和算法来测量样本之间的相似性并确定样本所属类别,是一个自下而上的方法(从事故之间相似性到事故分类)。LCA则首先用模型对事故数据进行描述,确定潜在类别的概率,然后应用最大似然法将所选特征变量划入确定的类别,是一个自上而下的方法(从事故数据分布到事故分类),从原理和算法上看,LCA具有更大的优势。从本研究结果来看,相对于系统聚类分析结果,LCA提供老年人群步行违规横穿普通路段和青中年机动车驾驶员深夜快速路违法等增加的事故类别,可用于重点预防干预,说明LCA更适合本研究所用数据库的事故分类。

本研究LCA将事故分为6类,各分类区分了机动车、非机动车、行人有关的事故,与既往研究结果“交通事故应该根据车辆类型分类”[10]的建议相同。各类别在时间、年龄、道路类型、事故原因方面也有区分,提示其他类型的变量可能也会影响分类结果。本研究中6类事故模式与DEPAIRE等[3]的研究结果相似,均包含行人事故、摩托车或自行车事故、交叉口事故,提示这些模式可能有内在的普遍性发生机制。

本研究将时间因素、交通方式、道路环境等多个因素综合纳入分析,对道路类型、交通方式等变量进行了详细的划分,在机动车中对客车、货车、摩托车再进行详细划分,与以往将机动车作为一个整体进行研究相比,不同类型机动车在不同时间、不同道路类型中伤害发生的危险性更清晰。以往对事故时间因素的调查结果显示白天是事故的高发期[11],本研究结果发现夜间城市快速路事故虽发生绝对数量少,但多为高危事故。夜间行车驾驶员疲劳驾驶或疏忽大意均增加道路交通伤害发生的风险,ÅKERSTEDT等[12]研究发现,与白天驾驶相比,夜间驾驶的困倦指标明显增加,并导致行驶路线偏移。胡思涛等[13]发现02:00— 06:00是高速公路上坡段重特大交通事故高发期,车辆类型以大货车和小客车为主,事故原因多为疲劳驾驶等,与本研究类别6中各因素条件概率分布相近。

以类别为自变量,以伤害结局为应变量的logistic回归结果提示“中老年早晚步行者”(类别5)与“中老年电动车自行车组”(类别4)的伤害发生的风险最高,非机动车与行人属于道路使用者中的弱势群体,在电动自行车与机动车相撞事故中,重伤率37.5%,死亡率12%,致残率17.5%[14]。WU等[15]发现56%的两轮车在道路交叉口存在闯红灯的行为,同时年轻人和中年人闯红灯的行为多于老年人。对非机动车伤情严重程度的回归分析中[16],年龄属于相关因素(OR=2.91),提示老年群体违反交通信号灯受伤风险高于年轻群体。

原数据模型与分类后数据模型对比结果提示,事故被分类后增加了新的伤害危险因素信息,且同一个自变量值在不同的事故模式中对伤害结局的贡献不同。MOLGAARD等[17]提出LCA的分类结果预测能力高于原始数据。类别3中的货车因素、类别5中的违法占道因素、类别6中的22—1点时间因素均为数据后新出现的伤害发生危险因素。类别1中的城市快速路、未保持安全车距因素,类别4中的违反交通信号灯因素,类别5中的逆行、未让行因素,与原模型相比,对伤害发生的贡献均增大。以上分析结果可以为制定道路交通伤害的预防措施提供新的依据,如在机动车事故预防中应重点关注城市快速路中未保持安全车距的车辆,加强对货车等大型车辆违法行为督查;对非机动车事故预防时应重点关注非机动车违反交通信号灯的问题;在行人事故预防中应加强对行人的教育,减少行人违法占道、违规穿越马路行为的发生。

本研究交通伤害事故处理记录仅覆盖上海市浦东新区,交通伤害类别模式为代表该地区的模式,受交通执法力度、交通方式、道路基础设施等因素影响,与其他城市或乡村可能存在不同,因而模式外推性弱。在参数估计的结果中,天气、季度两项因素在各组间的条件概率差异不明显,可能是由于这两个因素存在自回归现象而导致数据之间独立性不足,以后可考虑应用时间序列技术进行控制。LCA尽管并无公认的对样本数的要求,但分析仍受样本量与模型选择等的影响,模型预测的效果仍有待检验。

根据本研究对上海浦东新区7年道路交通事故数据库的分析结果,可见:(1)LCA方法比系统聚类方法在数据利用度和区分度方面有优势;(2)识别出该地区道路交通伤害贡献率高的危险因素组合为中老年步行、骑行电动自行车违规横过机动车道以及青中年夜间驾驶机动车,可供制定该地区交通伤害控制方案提供参考;(3)目前道路交通事故登记系统存在缺陷,接近一半(49.3%)的数据事故原因被归因于其他,对形成伤害控制措施和政策未能提供数据支持。

表1

上海市浦东新区交通事故特征描述性结果(n,%)

Table 1
表2

LCA模型拟合结果

Table 2
表3

道路交通事故LCA与系统聚类结果类别概率和条件概率分布

Table 3
表4

LCA和系统聚类分类特征及命名

Table 4
图 1

LCA与系统聚类分类数量对比气泡图

Figure 1 [注]气泡大小代表不同分析方法所得类别重合事故数。
表5

LCA分类结果及各类别伤害发生构成比(n,%)

Table 5
表6

LCA分类与伤害结局的logistic回归分析

Table 6
表7

原始数据与分类后数据logistic回归结果对比(OR,95%CI

Table 7

参考文献

[1]

城市管理-上海浦东[EB/OL].[2018/11/1]. http://www.pudong.gov.cn/shpd/about/20131209/008006004018_f23abfbb-8253-4340-8091-8eaef5c33948.htm.

[2]

陈亦晨, 李小攀, 杨琛, 等. 2002-2015年上海市浦东新区居民交通事故死亡流行特征及趋势分析[J].中华疾病控制杂志, 2017, 21(6):602-606.

[3]

DEPAIRE B, WETS G, VANHOOF K. Traffic accident segmentation by means of latent class clustering[J]. Accid Anal Prev, 2008, 40(4):1257-1266.

[4]

BÉDARD M, GUYATT G H, STONES M J, et al. The independent contribution of driver, crash, and vehicle characteristics to driver fatalities[J]. Accid Anal Prev, 2002, 34(6):717-727.

[5]

邱皓政.潜在类别模型的原理与技术[M].北京:教育科学出版社, 2008.

[6]

SASIDHARAN L, WU K F, MENENDEZ M. Exploring the application of latent class cluster analysis for investigating pedestrian crash injury severities in Switzerland[J]. Accid Anal Prev, 2015, 85:219-228.

[7]

KAPLAN S, PRATO C G. Cyclist-motorist crash patterns in Denmark:a latent class clustering approach[J]. Traffic Inj Prev, 2013, 14(7):725-733.

[8]

PennState College of Helth and Human Development. SAS procedures for latent class analysis & latent transition analysis[EB/OL].[2018-03-07]. https://methodology.psu.edu/downloads/proclcalta.

[9]

牛增良, 李海斌, 王文峰, 等.基于聚类分析的营运驾驶人危险驾驶行为研究[J].山东交通学院学报, 2014, 22(1):19-23.

[10]

YAU K K. Risk factors affecting the severity of single vehicle traffic accidents in Hong Kong[J]. Accid Anal Prev, 2004, 36(3):333-340.

[11]

黄开勇, 王晓敏, 董爱虎, 等.桂林市道路交通伤害交通环境因素分析[J].中国公共卫生, 2012, 28(5):571-573.

[12]

ÅKERSTEDT T, HALLVIG D, ANUND A, et al. Having to stop driving at night because of dangerous sleepinessawareness, physiology and behaviour[J]. J Sleep Res, 2013, 22(4):380-388.

[13]

胡思涛, 项乔君, 朱艳茹.高速公路上坡段交通事故特征及致因分析[J].交通信息与安全, 2013, 31(1):143-146.

[14]

唐瑞康.电动自行车交通事故致多发伤的特点分析[J].当代医学, 2011, 17(6):103-104.

[15]

WU C, YAO L, ZHANG K. The red-light running behavior of electric bike riders and cyclists at urban intersections in China:an observational study[J]. Accid Anal Prev, 2012, 49(11):186-192.

[16]

吕东来, 方健, 朱捷, 等.合肥市非机动车交通事故伤情相关危险因素研究[J].中华创伤杂志, 2012, 28(1):20-23.

[17]

MOLGAARD N A, HESTBAEK L, VACH W, et al. Latent class analysis derived subgroups of low back pain patientsdo they have prognostic capacity?[J]. BMC Musculoskelet Disord, 2017, 18(1):345.

上一张 下一张
上一张 下一张

[基金项目] 浦东新区卫生和计划生育委员会卫生科技项目(编号:PW2016A-8)

[作者简介] 王亚(1994-), 女, 硕士生; 研究方向:伤害流行病学; E-mail: 16211020018@fudan.edu.cn 应佳丽(1989-), 女, 硕士, 医师; 研究方向:伤害防治; E-mail: yingjiali1020@163.com

[收稿日期] 2018-06-18 00:00:00.0

【点击复制中文】
【点击复制英文】
计量
  • PDF下载量 (25)
  • 文章访问量 (523)
  • XML下载量 (0)
  • 被引次数 (0)

目录

应用聚类分析识别上海浦东新区道路交通事故模式

导出文件

格式

内容

导出 关闭
《环境与职业医学》杂志官方网站