机房技术专业委员会                  
                                          北 京 工 翔 科 技 有 限 公 司
  

数据中心安全与事故


来源:新一代绿色数据中心

  昨天,也就是20161124日,江西丰城电厂三期工程,有超过70人将生命永远留在了那里。

  当你有缘看见此文时,无论你在做什么,请默哀7s钟。

  这并不是形式主义,也不是为了已经逝去的他们,而是为了已经渐趋麻木,失去底线的我们自己。

  福哥经常容易犯迷惑,但是爷爷逝世那天的情景我还是记得很清楚,因为全程大多时候是跪着的,因为跪着疼痛,才记忆深刻。三十之后,我才明白,并不是为了别人,而是为了我们自己。为了加深记忆,为了对抗麻木,为了总结经验,为了更好的生活下去。

  数据中心事故回忆录2015

  201519日,由于一名焊工的吹管不小心引燃了旁边的建筑材料,原准备作为亚马逊网站未来数据中心的一幢大楼发生了火灾。

  这场大火很快变成了维吉尼亚州阿什本一处地方的三级大火。几英里开外的地方也能见到滚滚浓烟。亚马逊发言人称:这场大火造成约10万美元的损害,不过补充说没有影响亚马逊运营的风险,因为该数据中心还没有投入使用。

  2015127日,2点起,便有网友发现,无法登陆Facebook,页面显示"对不起,出故障了,目前正在抢修,会尽快修复"。同时,黑客组织Lizard Squad发推特,声称对此次机事件负责。

  Facebook发言人称:"此次故障与第三方攻击无关,发生故障的原因是我们对系统设置做了一点改动。"但相关数据显示,Facebook美国总部当天曾遭受大规模DDos攻击。

  20151252130分,由中国教育电视台直播的福利彩票双色球”15011期开奖突然取消。随后中彩网通知称由于数据通讯传输故障导致,待故障排除后再在公证员的监督下进行开奖。推迟开奖两小时后,中彩网在网上公布了中奖号码,并附有一则中奖人介绍。

  2015311日,包括App StoreiTunes StoreMac App Store以及iBooks Store在内的一系列苹果在线商店服务,遭遇大面积服务中断。据统计事故恢复时间长达11个小时。

  苹果公司针对该事件公开向用户道歉,并表示,宕机原因是苹果公司内部DNS错误。但此次故障,使苹果在股市上下跌1.82%,市值蒸发了130亿美元。

  2015510陌陌因网络故障无法正常使用,第二天网页也宣布骨干网络受到攻击。

  2015511日,因骨干网络遭受攻击,导致网易旗下部分服务(大部分产品如网易新闻客户端,网易云音乐及众多游戏,如梦幻西游等均出现登陆故障,导致无法连接与刷新。)暂时无法正常使用。

  2015526日,位于美国亚利桑那州平顶山的苹果工厂发生火灾,起火点位于该公司数据处理中心屋顶的光伏组件。0.5h后火灾扑灭。一个方阵的电池组件报废,短期内可能较难恢复工作。

  2015527日,全国各地微博网友反映支付宝无法登录,无法支付,支付宝提示交易查询失败。2.5h后基本恢复。

  2015528日,携程官方网站及APP暂时无法正常使用,将近11.5h后才基本恢复。

  在携程出现故障后,携程在首页上方提示,消费者可以前往艺龙旅行网进行消费。不久之后,艺龙旅行网首页也无法访问。2818时许,艺龙官方微博回应道,"因遭受网络攻击,艺龙网首页出现部分用户无法访问的情况,目前已恢复正常"

  201563日上午230(北京时间),位于北卡莱罗纳州 Maiden 的苹果数据中心发生了氯气泄露事件,导致至少5人受伤。

  201565 今日头条网首页和APP都无法访问,直接提示500错误。故障原因:不明 影响时长:30分钟左右。

  201566日下午,因广东1(GD1)所在IDC遭遇雷暴天气引发电力故障,QingCloud广东1区全部硬件设备意外关机重启,造成QingCloud官网及控制台短时无法访问、部署于GD1的用户业务暂时可用。设备重启后2小时31GD1业务恢复,系统数据和用户的业务数据未出现任何丢失。

  在2015621日,阿里云香港节点出现权限机,业务中断超过12小时!甚至出现部分用户数据损毁!

  当晚,阿里云发布公告称,此次故障因香港运营商IDC电力问题所致。据称其二号数据中心于21日上午940分因电力故障导致部分客户服务终端,经抢修,下午2点恢复部分客户服务,晚上950分完全恢复电力供应,客户服务全部恢复正常。

  2015629日下午530(莫斯科时间)左右,俄罗斯鞑靼斯坦共和国阿尔法银行自动取款机、银行网点均停止服务。

  630日晨,该行自动取款机、网上银行和银行网点都已正常恢复运行,阿尔法银行称,其技术故障已经解除,但并没给出准确的故障时间。

  有消息称,此次俄罗斯阿尔法银行的业务停止是由于技术故障导致。但也有网友表示对这种解释不信服,认为这是让运维人员做替罪羊。

  201573日晚8点,《盗墓笔记》在爱奇艺全集上线,由于必须是"爱奇艺VIP会员"才能观看全集,这掀起了"充值付费潮"。然而,瞬间涌入的流量,让爱奇艺服务器宕机了!最多时有超过70%VIP会员无法观看《盗墓》。

  2015781132分至1510分,纽交所因故障暂停交易。据称,作为世界最大交易所之一,交所暂停交易超过3小时,可谓前所未有。

  随后,交所在推特上表示:此次故障由于交易所内部技术问题导致,已排除外部网络攻击的可能。交所主席法利表示,此次故障可能与软件升级有关。

  201581223:30左右,位于天津滨海新区塘沽开发区的天津东疆保税港区瑞海国际物流有限公司所属危险品仓库发生爆炸。附近所有数据中心建筑均受到部分影响,绝大部分数据中心出于人员安全和其他安全要求,转移负载中断本地运行。

  。。。

  。。。

  。。。

  某机房工人独自在现场带电施工,手拿线缆穿过带电配电柜,因不小心手掌触碰到配电柜母排上,造成手心被电击穿。

  某机房在21米高的平台铺设电缆时,由于未做好安全防护措施,一名工人被电缆从该平台上甩出,坠落至11米处被一根铁管缓冲后落地,造成4级伤残。

  某机房因地板光滑且未检查梯脚是否完好,造成梯子滑倒,工人严重摔伤。

  某机房工人在施工现场清理卫生时,不小心将客户在线使用设备的配电柜开关碰掉闸,造成设备停机2分钟,损失约几十万。

  某机房在竖井里进行墙壁开孔,用水钻时,未考虑原配电柜与桥架之间已经连通,水顺势流入配电柜母排,造成短路,导致整个大楼全部停电。

  某机房在配电柜送电前期,未对电缆做绝缘遥测,当配电柜送电时,因电缆护套已被配电柜体划破,造成短路爆炸。

  。。。

  。。。

  。。。

  某机房聘用非专业保洁,清洗外墙,造成消防应急按钮被水枪启动,喷光几十万灭火剂。

  某机房消防预演,导致服务器损坏,核心业务受损10h

  某机房ups升级,导致机房整体机,核心业务受损7h

  某机房运维不力,造成机房浸水。

  某机房运维不力,造成动力系统断电。

  某机房验收不力,造成动力系统故障。

  。。。

  。。。

  。。。

  安全与事故

  数据中心的事故带来的最大损失往往并不是那几十上百甚至上千万美元的直接经济损失,对于众多知名品牌与上市公司来说,其对于品牌和股价等隐形价值的不利影响将会是最令人头疼的。

  根据之前介绍的海恩法则,在事故发生前,新一代专业运维人员能从各类故障隐患、端倪和故障中提前发现事故隐患和主动整改并制定应急措施,降低事故可能性,保障系统安全运行。

  当然这只是最后兜底,一个良好的数据中心运营团队,应该从一开始(需求、立项、选址、规划)直至全程就始终如一的关注和重视安全施工与安全生产相关的设计、建设与运维。

  网络安全、基础设施安全;设计、建设、运营;供电、供水、通讯;基础设施运维、维保、供应商管理;等等任何一个环节,任何一个专业,任何一个部门,任何一个时间的安全建设、安全生成、安全运行没有做到位,就可能带来重大的数据中心安全事故,给人生、财产、名誉带来极大的损失。

  主编寄语

  我们能够尊重设计单位、施工单位、监理单位、建设与运营单位有着各自的利益核心;

  我们也能够理解采购部门、项目建设管理部门、项目设计管理部门、项目运营管理部门各自不同的绩效考核;

  但请所有人不要为了一点点利益,随意践踏人之为人的底线。

  在体制和制度没有形成大团队一致的目标时,人生安全应成为所有能称之为人之人的真正的底线。

  无论你是一个手握重权还是手无缚鸡之力的人,请不要习惯性的说“No” or “Yes”

  如果做不到,

  请不要遗忘为什么要默哀7s钟。

  请从下面这首音乐中获取一点反抗的力量吧。

  人生注定会遇到很多种不平(违反善之初心,违反技术原则,违反规章制度,违法乱纪,违反做人的底线),如果往前一千年,你愿意路见不平一声吼,毅然拔刀相助么?