月月乐

 找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

搜索
热搜: 舞蹈 比赛 提高
查看: 353|回复: 1

马骋之死背后高铁信号系统的是是非非

[复制链接]
发表于 2011-8-30 22:23:34 | 显示全部楼层 |阅读模式
2011年08月30日08:43财新网[微博]于宁 谷永强 曹海丽

[导读]国务院牵头的高铁安全大检查在继续。但通信信号行业乃至整个铁路行业的垄断问题及招投标灰幕,则非补漏这般简单。已经暴露的各种问题不仅是跃进之祸,也是垄断之祸,积弊丛生,新规待立。



“7·23”事故怎样祸起信号?高铁信号系统寡头供货者为何疲于奔命?决策者现在何以进退两难?


马骋死得很突然。


中国铁路通信信号集团公司(下称通号集团)的总经理、业内视为中国高铁信号技术的带头人,死在了“7·23”甬台温动车追尾事故一月祭的前一天——8月22日。





当天上午,马骋正在深圳,与前来检查广深港客运专线的国务院高速铁路安全大检查组成员一起开会。据多位知情人士称,刚讲完话,他就倒在桌上。


马骋没有心脏病史,却突发心脏病去世。熟悉的同业为之唏嘘:“压力过大,责任也过大。”在他死之前,通号集团正面临前所未有的信任危机。下辖的北京全路通信信号研究设计院(下称通号院)正是甬台温信号系统的设计者,通号集团则是集成商。


在7月23日晚,一个致命的简单软件设计错误,导致甬台温的列车控制中心(下称列控中心)不能实时采集外部数据,并向调度集中系统(下称CTC)传输了错误信息。D301次动车的车载自动控制设备因此接到错误信号,仍按正常速度行驶,与前车D3115次动车追尾,终酿成一场40人死亡的特大事故。


事故发生以来一个月,通号集团成为众矢之的。作为通号集团领导的马骋不堪重负,病发身故。昔日的信号精英如此收场,令人感喟。但致命的设计错误究竟为何发生?还有多少隐患没有暴露?无人敢下断言。谁又该为高铁大跃进承担责任?


短短七年,通号集团与中国高铁为不断攀向更高速度的努力同步冲刺,表面上不断攻克一个又一个技术难关,但光荣背后,技术人员疲于奔命,力有未逮,终致惨剧。“7·23”事故暴露的不仅是通号院的软件设计缺陷,也是整个高铁发展不顾科学规律和常识、盲目追求速度下的险象环生。


这种封闭运行的发展模式,也使决策者现在进退两难。“现在全国的高铁信号集成多半是他们的,一棍子打死,高铁的运营和技术支持怎么办?总不能全停了重新搞吧!(这种模式)已经绑架了铁路!”一位接近事故调查组的人士表示。


从9月1日起,铁路调整运行图,高铁普遍降速,武广、郑西等高铁线路也不再以时速300公里运行,对高铁安全的担忧笼罩了一切。国务院牵头的高铁安全大检查在继续。但通信信号行业乃至整个铁路行业的垄断问题及招投标灰幕,则非补漏这般简单。对整个铁路系统而言,已经暴露的各种问题不仅是跃进之祸,也是垄断之祸,积弊丛生,新规待立。


致命错误


一个低级的软件设计错误,因为没有经过破坏性试验而被忽略


这原本是一场可以避免的灾难。


“7·23”事故调查组预计在9月间正式披露详细调查结果,但财新《新世纪》记者从接近调查组的人士处获悉了事故发生的过程。


软件设计的逻辑错误,偏离了故障导向安全原则,使信号彻底失灵。


7月23日19时44分,上海甬台温调度台的调度接温州南站报告:车站联锁显示下行三接近红光带,车站调度集中系统(CTC)界面无显示。


在铁路控制系统中,以线路钢轨为导体,构成轨道电路,两条轨道被列车的轮对短接,在控制系统中就会显示为红色,从而指示车辆的位置。但在绝缘损坏、雷电等情况下,可能造成无车路段的路轨短接,或者信号设备系统本身有故障,显示异常红光带或“闪红”。出现红光带的原因很多,或为前方路段有车,或为故障所致,调度往往难以判断。在这种情况下,调度应该采取保守做法,将其当做前面有车来处理。


所谓“三接近”,则是指还有接近三个闭塞分区的距离。在列车的行车调度上,站与站之间被分成若干段,叫闭塞分区。每个分区的开头结尾都有信号装置,以红绿灯显示。每段分区一次只允许一趟列车通行。温州南站通信车间工作人员称,在永嘉站至温州南站这个路段上,每个闭塞分区的长度为1.4公里。有列车运行的闭塞分区,禁止其他列车进入,所以它后面的灯是一个红灯。紧接着的一个闭塞分区是黄灯,其次是黄绿灯,再后面才能是绿灯。


车站联锁设备反映的是温州南站站内信息,车站值班员可以看到,而上海的调度看不到。上海调度中心只能看到CTC,它的信息来自各个站的车站CTC,而车站CTC分别从车站联锁和列控中心(反映站与站之间的区间信息,包括列车占用信息)获取信息。


当时两者搜集的信息显然不一致——联锁显示的是红光带,而列控中心反映的是正常,虽然它们都从轨道电路获取信息,但从同一个继电器的不同节点获取信息。


联锁显示的信息一直是正确的(显示异常红光带),但CTC主要从列控中心获取闭塞区间的信息,从前述调度信息看,“车站CTC无显示”即意味着联锁和列控中心有一个已经出了问题,但调度当时或许还没有意识到问题在于列控中心的信息采集已经不是实时更新。


这是非常少见的情况。上海与温州的值班员看到这点后,19时53分转入非常站控状态,即在非正常情况下改由车站人工办理出发列车和进站列车作业。


直到事故发生之后复盘,才确认列控中心设在温州南站的信息采集板保险丝被雷电击坏,导致信息采集出问题。


问题不止于此。采集板的采集电源坏了,但逻辑电源还在传输信息。


据前述消息人士介绍,数据包传上来,通常有特殊的标志位来显示数据正常、非正常,能否采用。但是,温州南站的列控中心在采集这些数据包时未能识别出来。


“如果识别出来,按照故障导向安全原则,就要把数据清零,即老数据清除, 显示红光带,后车D301应以20公里时速目视运行。问题是它没有识别出来,老数据没有清零,还显示正常,结果后车以ATP(车载)模式运行,高速行驶,最终追尾。”


如果这个解释成立,雷击只是外部诱因,真正的原因是软件设计出了大问题。按安全设计,后车距离前车还有三个闭塞分区时,前方会显示为红灯。由于软件的逻辑错误,导致了主控软件得到并传给CTC的不是实时外部数据。


一位信号专业人士分析指出,如果调度负责一点,天气瞭望条件好一些,这次事故也许不会发生。但软件的缺陷却是必然,早晚要出事。


值得注意的是,CTC显示异常在列车停在永嘉站时已经发现了。“列控中心传输给CTC的信息是错的,CTC不知道,但是放车进入区间的调度员怎么会不知道?他放车进去了,但在CTC上没看到,难道不该引起注意吗?”前述接近调查组的消息人士称。在他看来,转为非常站控后,调度员、车站值班员、司机信息交流失误是事故最终未能幸免的关键。


一般情况下,调度台应有调度员和助理调度员,前者负责列车运行计划、调整及指挥;后者负责监控列车运行和操作设备,比如转非常站控。转入非常站控后,车站值班员负责通知司机,但其间车站和调度员按规定应加强联络。


然而,7月23日从19时27分至事故发生,温州南站和永嘉站先后三次转为非常站控,主要的行车指挥随之三次转换,造成调度员、车站值班员、司机三方对车所处位置互相沟通错误,并严重违反规定,在前车还未越过区间故障点时,后车就进入了故障区间。


8月11日,国务院“7·23”甬温线特别重大事故调查组在温州召开第三次全体会议。调查组组长、国家安监总局局长骆琳在会上表示,造成事故的原因既有软件设计问题,也有管理问题。8月22日国家安监总局新闻发言人黄毅称,“这起事故确实是一起不该发生的、可以避免和防范的一起责任事故”,“既暴露出信号系统设计上的缺陷,从而导致雷击造成的故障问题,同时也反映出故障发生之后,应急处置不力以及安全管理上存在的漏洞。”他称,下一步将进入事故责任的认定阶段,包括直接责任、间接责任、领导责任。


据消息人士介绍,8月10日事故调查组人员调整后,铁路人员全部离开,只配合调查;随着路外专家、领导的大量介入,调查接近了真相。


在多位业内人士看来,事故中暴露的软件设计缺陷是一个比较低级的错误。“各厂家对安全性要求不同,但故障导向安全是最基本的原则,设计绝对不应出现这样的问题。”一位铁科院的专家称。他很难理解人才济济的通号院为何铸下如此大错,他猜,“设计人员缺乏经验,没有想到这种可能性,大家把重点放在了硬件上,硬件比较难,要保证硬件采取的信息准确,而软件是补漏的,重视不够”。


至于这一设计问题为何没有在测试时被发现,一位信号专业人士称,厂家在产品开发阶段就应该进行故障测试,但现在一般不会做雷击这种破坏性试验,而只做系统功能测试。这个软件设计问题属于产品中模块设计的问题,从研制报告中很难看出是否安全合规。


另一位专业人士分析认为,测试时间太短也是一个原因。“一般测试组只测试一两天,之后就开评审会,主要关注系统和产品功能,不会深入产品设计的细节问题。”


据了解,国内目前在故障测试方面并没有统一标准,厂家自己判断需要做哪些测试,同时承担相应风险。通号集团在甬台温线上提供的这款列控中心产品LKD2-T1,并不是在其已研制多年的联锁平台上开发,而是在新的硬件平台上开发出来的。铁道部披露,58个车站、18个中继站使用了与温州南站相同的采集驱动板软件,涉及甬温、温福、海南、广珠四条客运专线。


接近调查组的知情人士称,LKD2-T1确实存在缺陷,“由于仅仅做了功能性试验,没做破坏性试验,所以是否还存在其他的问题,在当前这种非常时期,谁也不敢打保票。”按照铁道部的规定,厂家对内部设计问题要终身负责。


据悉,7月27日通号院就完成了硬件调整——对采集板加强了防护保障,下一步是对软件进行升级测试,但目前这四条客专采取的整改措施是临时性的,按照站间闭塞行车,即站间只准走一列车,而非以前的自动闭塞行车,这是在故障状态下采用的后备模式或降级模式。在安全为速度付出惨重代价后,为了安全,终于开始牺牲速度。




 楼主| 发表于 2011-8-30 22:35:56 | 显示全部楼层
???
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|月月乐艺术中心

GMT+8, 2024-12-27 14:44 , Processed in 0.112871 second(s), 18 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表