客户名称:中国铁道科学研究院
所属行业:铁路行业
客户简介
中国铁道科学研究院是铁道部直属科研机构。铁道科学研究院是中国铁路行业唯一的多学科、多专业的综合性研究院,2002年由国家事业单位转制成为集科研、开发、生产、咨询等业务为一体的中国铁路总公司直属大型科技企业。
中国铁道科学研究院直属电子计算技术研究所,是从事电子计算技术在铁路上应用的专业研究所。主要从事信息技术、智能系统技术、机电一体化技术和信息工程等的研究、设计、开发、实施、维护、监理与咨询等。12306中国铁路客户服务中心客运服务系统就是由电子计算技术研究所主持研发、数据中心组建、运营与运维。
现状分析
主要挑战
目前中国铁路客户服务中心客运服务系统拥有庞大的服务器系统,存储和网络设备也非常庞杂,当前主要的挑战如下:
传统小型机在单机处理能力上具有绝对优势,但是对于12306这种面对层次较多,应用较复杂,对资源分配要求比较灵活的大型综合系统就显得捉襟见肘;并且小型机扩展能力有限,升级成本高,综合性价比较差。
随着访问量的不断增加,传统小型机的处理能力不足时,小型机的弊端就暴露无遗,由于小型机的单机扩展能力有限,很难实现快速的横向扩展来提升性能。
服务器的购置和维护成本较高。大量服务器带来了很多挑战。例如,每台服务器都产生高额成本,包括购置硬件、系统软件、网络连接与存储等,同时管理成本也随之上升。面对庞大的服务器系统,加上应用服务器的专用部署模式,一旦发生宕机,故障处理时间也不容易掌控,如果故障原因比较复杂,可能需要处理的时间会很长,导致服务恢复时间过长。
新业务部署及上线时间难以掌控。由于受到各方面条件的限制,增加新应用时需要等待服务器的申报、审批、购买、安装等一系列复杂过程,每次所需时间可能长达半年甚至更久,延长了部署新应用的时间,导致业务上线滞后。
庞大复杂的12306客运服务系统目前仍然保持单数据中心运行,很难在不可规避的风险发生时迅速恢复运行,且RTO与RPO完全不可控。
客户需求:
随着我国铁路事业的快速发展,12306客运服务系统所承担的任务越来越重,数据中心的改造迫在眉睫。为了适应客运服务发展需要,铁路总公司以及中国铁道科学研究院开始着力建设12306双活数据中心;2013年对12306客运服务电子客票数据库进行了U2L尝试,利用虚拟化技术对现有业务能力进行扩展;2014年将电子客票数据库全部实现U2L的转换,且建立基于虚拟化技术的双活数据中心。由此对虚拟化双活数据中心提出了更高要求:
(1) 满足7*24小时不间断运行,充分保证系统的高可用性;
(2) 双数据中心同时对外提供业务支撑,且数据中心之间互为备份,实现RPO为零,RTO接近为零的要求。
(3) 铁路客户服务中心客运服务系统,包括前端网站部分,中间件部分以及后台Sybase数据库部分,应全部消除单点隐患,达到全冗余架构,充分保证系统的可靠性;
(4) 集中统一的管理架构,统一监控,预判趋势,提高需求响应速度,提升IT管理服务能力;
解决方案
经过缜密规划,电子计算技术研究所决定12306客户服务系统数据库部分采用VMware虚拟化平台,且虚拟化群集跨两个数据中心存在,另个数据中心同时运行,对外提供服务;为每个集群配置故障主机分别位于两个数据中心,以用于本中心或对端数据中心故障接管;每个群集中当主机发生故障时,虚拟机优先在本数据中心空闲资源主机上重启,只有当本数据中心资源不足时,在对端数据中心重启。配置单独的管理集群用于所有管理虚拟机的运行,且管理集群同样跨两个数据中心实现双活架构。

网络方面,物理链路层实现两个数据中心二层网络互通,通过波峰复用技术和DWDM设备进行两个数据中心光纤连接和光增强;所有物理链路连接及网络设备均采用冗余机制,避免单点故障存在;同一个群集中的主机之间均采用同样的vMotion网络实现跨数据中心的在线迁移功能。虚拟化层配置三个虚拟交换机对应三个独立的vlan将管理流量,vMotion流量和业务流量进行分离。
存储方面,采用HDS 高性能高可用统一存储系统作为双活数据中心存储设备,通过存储的全局虚拟化功能,两套HDS设备在两个数据中心之间通过裸光纤连接实现数据复制,从而实现存储双活。存储通过划分资源池进行各个业务之间的存储I/O隔离,以减小业务I/O之间的相互影响。按照业务不同将存储资源划分为不同的存储资源池;为每个资源池中的磁盘创建RAID保护机制。每个卷都在对端数据中心存在一个备份卷与之进行实时的数据同步,且对应群集中所有的虚拟化主机对这两个互为备份的存储卷均具有访问权限。
在业务应用方面,VMware的模板功能可以帮助用户快速部署从系统到应用软件配置的整体应用服务器。vMotion功能将帮助用户快速的在线迁移业务虚拟机而不中断业务运行。HA与DRS功能的结合帮助用户在主机发生故障时,虚拟机优先选择利用本数据中心剩余资源重启,只有当本数据中心资源不足时会选择利用远端数据中心资源进行重启。
在管理方面,VMware vRealize Operations帮助用户预测分析和智能警报主动识别并利用引导式修复功能协助用户解决出现的问题,确保基础架构的性能和可用性。VMware vRealize Log Insight为虚拟化环境提供实时日志管理功能,并和基于机器学习的智能分组功能、高性能搜索和故障排除功能,帮助用户监控日志输出,异常报警、快速定位并排除故障。VMware vSphere Data Protection为虚拟机和关键业务用于提供可靠的保护,最大限度的缩短备份时段和减少存储使用量,以帮助用户降低备份基础架构的成本。
主要成果
在成功实施了VMware解决方案后,12306客运服务系统所面临的问题都得到了很好的解决,成效显著,主要成果如下:
安全可靠,无单点隐患:本方案采用服务器虚拟化技术,将购买的X86机架式服务器搭建成虚拟机资源池,从中创建虚拟机运行数据库。当任何一个或几个服务器出现故障,虚拟机会自动漂移至其它服务器上正常运行,期间不会出现虚拟机访问中断,有效地提高了数据库服务器的可靠性。
虚拟机管理服务器、域控制器和存储管理服务器等全部采用双机集群部署方式,任何一台管理服务器出现问题都不会影响正常的管理操作,提升了管理的可靠性。
虚拟机后台存储设备采用高性能高可用统一存储架构,通过采用HDS 高性能存储系统,可以实现数据同时写入两个数据中心,任何一台存储故障都不会影响整套系统的正常运行。
数据中心网络全部采用冗余架构,从网络设备到服务器网卡、虚拟化层网络,全部配置冗余,保证了在单设备实效的情况下网络能够被正常访问。
集中管理,快速扩展:通过虚拟化管理平台统一管理两个数据中心电子客票系统所有主机,IT管理员利用统一的界面,可以对所有主机,虚拟机以及存储设备等进行远程配置和管理,避免由于双中心分散所造成的管理困难。
数据中心预留了充足的资源用于故障切换和扩展,在现有虚拟机不能满足现有业务要求时,可以立刻通过模拟部署虚拟机实现快速扩展业务能力。
系统性能、故障的实时监控:方案采用了VMware的vRealize Operations监控套件,它能够实时监控所有后台设备和虚拟机的性能及故障,实时报警。该软件通过将采集的基础指标数据汇总成工作负载、容量和运行状况分值,然后对其进行分析。它能够对即将发生的性能下降等发出智能警报;通过深入查看从数据中心到组件级别的各种信息,根据性能、容量和配置数据分析出服务运行的状况和绩效,然后通过发送电子邮件方式将最直观的图表与分析数据发送给用户,使用户能够快速、直观地了解当前基础架构的运行情况、性能、存在的风险以及当前资源的使用情况,从而更加从容的定位故障并实时响应,执行措施防止风险发生,以及制定资源优化方案等等,有效地保证系统的稳定性、可靠性和安全性,有效地分配和使用资源。
展望未来:在前述应用成功的基础上,通过更多地部署VMware服务器虚拟化和,加速在不同服务器上业务资源的整合和共享,为整个铁路信息资源的合理利用夯实基础;希望继续深入与VMware在虚拟化和云计算上的应用合作,为未来构建统一的云平台奠定基础。