工作总结
时间:2026-04-13 作者:工作计划之家〔深度〕信息科工作总结。
去年十月十九号晚上那台核心交换机割接,到现在我都不敢说完全想通了。
十点进机房,厂商工程师远程配合。配置导出、接口映射、路由条目,我盯着两个人做了一轮核对。十一点四十,业务切通,ping外网延时1ms内,住院部留观区的护士站试了五台机器,登录、开医嘱、刷体温,全都正常。我说收工,凌晨一点到家刚脱了外套,电话来了——急诊挂号全死,分诊台刷不出排队序列,护士长在电话里说“你们能不能靠点谱”。
二十分钟赶回去,路上让值班的同事先重启了HIS应用服务,没用。我蹲在机柜前翻日志,发现新交换机的STP根桥优先级从4096变成了8192。问厂商,对方支支吾吾说下午用web界面做了个环路测试,忘了回滚。而web界面的修改不会自动写入running-config,我们导出的配置文件里压根没这条。
最后把根桥强制指回原来的交换机,重启生成树,四秒后业务恢复。这四秒,HIS连接池全部超时,急诊挂了九条挂号记录需要人工补录。
第二天早上我开了个短会,定了几条死规矩:第一,所有配置变更必须用命令行,禁止web界面操作,除非你写清楚理由并抄送给我;第二,变更前后用diff比对配置文件,打印出来签字;第三,任何变更,哪怕改一个端口描述,都得有另一个人站在旁边看着你敲命令。这三条贴在机柜门上,后来有人想省事,我让他当场读了一遍。
上半年还有个事让我窝火。三月份开始,住院部护士反映打开一个病人病历要等十几秒,最慢的到半分钟。查了一周,CPU、内存、磁盘IO、网络延迟,全正常。我怀疑是数据库,但厂商说他们这套逻辑跑了三年没问题。
最后抓了慢查询日志,排名第一的SQL是统计检验指标趋势的,用了三个子查询和一个not in。我在测试环境里把它跑起来,同时开性能监视器,发现临时表空间一路飙到4G。试着先加索引,效果不明显;改成not exists,快了,但还是两秒多;最后把子查询拆出来做成临时表,加上主键索引,再跟主表关联,响应时间掉到0.3秒。
但这事没完。改完之后第三天,另一个报表页面突然变慢,因为临时表占用了tempdb的I/O。我们又把临时表改成内存优化表,加了一个自动清理任务,每小时删一次超过十分钟的数据。这才算彻底解决。
从那以后,每季度抽一周,把慢查询日志拉出来,排前二十的逐条分析。科室里那个研究生刚开始嫌麻烦,觉得DBA的活不该运维干。我说你不想干也行,哪天业务崩了,你打算怎么跟护士长解释?后来他自己抓了一条预约冲突检测的SQL,发现是全表扫描,加了复合索引之后,发了个邮件抄送全科,标题写着“今天捡了个漏”。
团队里压担子这事,说容易做难。去年底上物资管理系统,我让两个工作刚满一年的小伙子全程负责。需求调研、接口设计、测试、上线,我只在技术评审时提问题,不给方案。第一版接口他们用了XML,报文体里三层嵌套,我问如果第三层解析失败,整个事务要不要回滚?他们想了半天,回去改成JSON扁平结构,加签名校验。上线后跑了四个月,那条接口没出过一次解析错误。 【dg15.CoM 工作总结之家】
但我们也有翻车的时候。值周技术负责人制度刚开始,轮到小陈当值,正好遇上存储扩容。按规范应该先停止数据库服务、打快照、再扩LUN。他觉得在线扩容风险低,直接扩了。结果LUN扩展后文件系统没识别出来,导致两个虚拟机开机报错。我在电话里问他操作步骤,他说漏了“执行rescan-scsi-bus.sh”。我没骂他,让他写了事故报告,附上完整的在线扩容检查清单。这份清单现在贴在每个存储工程师的显示器旁边。
设备维护我有个笨办法——每台设备建一个档案,记录固件版本、风扇更换、日志异常。去年一台磁盘阵列控制器频繁报temperature high,厂商说是控制器坏了,换一个两万八。我翻了档案,发现三个月前刚换过风扇,而且报错都是下午两三点出现,早晚没有。拆开一看,风道被灰尘堵了,下午机房空调负载高,温度上去就报警。用吸尘器和气枪清理后恢复正常。厂商工程师在电话里说“你们比我们售后还细”。
质量验收这块,我吃过最大的亏是体检预约平台。测试环境功能全过,上线后发现预约短信里的链接是内网IP。为什么没测出来?因为测试环境用的短信网关是模拟的,根本没做外网验证。现在验收清单里加了一条“全链路穿透测试”——从用户点击到业务系统响应,每个API调用、每个外部接口返回,都得抓包确认。我用tcpdump在防火墙上抓了三个样本,截图附在验收报告里。
跟厂商打交道,我后来学精了。有一次核心业务系统的厂商做远程升级,把认证服务搞挂了。他们远程登录后改了配置文件,没告诉我们就重启了服务。我们发现后,厂商死不承认,说“我们没动过”。我把堡垒机的录屏调出来,他们远程操作的那段视频里清清楚楚敲了“service restart”。从此规定:所有厂商远程操作,必须提前申请,全程录屏,操作结束后交一份变更记录。不签字不准走。
科室内部的知识库,我要求每个人写实战记录,不写原理,只写“当时什么现象、我查了什么命令、最后怎么解决的”。目前存了四十七篇。上个月急诊排队系统半夜报错,值班的同事搜到一篇“接口返回HTTP 504排查”,照着里面的步骤查出来是负载均衡会话保持超时,十分钟解决。他在群里说了一句“这篇值一顿夜宵”。
要说这一年还有什么没做好的,我觉得是预算和设备生命周期管理。两台核心存储已经跑了五年,厂商停止固件更新,我心里一直悬着。明年得把这件事排到第一位,不能再拖。
信息科这活儿,说白了就是不停地补窟窿,顺便想办法让窟窿少一点。我不信有什么银弹,只信每一行命令、每一份日志、每一次复盘。能把那些模糊的、不可控的东西,一点一点变成清晰的、可重复的流程,就算没白干。
-
想了解更多【工作总结】网的资讯,请访问:工作总结
本文来源://www.fz76.com/gongzuozongjie/191003.html
