首页 > 资讯 > 数据库 >技术人生系列第十期·我和数据中心的故事·运维无小事之一次导致数据丢失的小变更

455

分享到

技术人生系列第十期·我和数据中心的故事·运维无小事之一次导致数据丢失的小变更

2024-04-02 19:04:59 455人浏览安东尼

摘要

前言不知不觉，技术人生系列·我和数据中心的故事来到了第十期，小y又和大家见面了！前期我们分享了不少oracle数据库故障和优化的实战案例，

前言

不知不觉，技术人生系列·我和数据中心的故事来到了第十期，小y又和大家见面了！

前期我们分享了不少oracle数据库故障和优化的实战案例，有朋友问，小y是否可以分享一些无备份时数据恢复方面的实战案例呢？

答案自然是——当然可以了。小y从来就不是一个藏着掖着的人嘛 ^_^

这些年，小y所在的Oracle服务团队，该遇到的和不该遇到的问题，基本都碰到了。

所以在无备份的数据恢复这方面做的案例还是很多的，有时一周甚至要做三四个这样的CASE，问题类型不尽相同，例如：

>> 某电信运营商文件系统满，维护人员清理了在线日志文件导致数据库无法启动…

>> 某电信IDC机房掉电，Oracle数据库损坏无法启动…

>> 某基金客户将数据库用户误删除drop user xx cascade….

……

小y从内心觉得，“没有备份的数据恢复案例”确实不太好拿出来分享，毕竟这样的故障对客户而言是不光彩的事情，如果敏感信息没有被处理的很干净，就怕客户对号入座，给自己找麻烦，所以一开始也就没有分享类似案例的念头了。

但是转念一想，如果可以把共性的风险提炼出来，不仅可以从技术层面从给大家做一个提醒，还可以从如何完善数据库运维体系的角度给出建议，那么这种案例分享就变得有意义了！

这里补充一点，有朋友可能会好奇的问,”像接到这种CASE，客户已经绝望，你们可以狮子大开口，开个高价，一定不少赚吧?!”

实际上，很多情况下，按照中亦科技的风格和理念，我们是服务于企业客户的，是要做口碑的，从和客户（或潜在客户）长远合作的角度来考虑，这种CASE我们大部分都是给客户免费做的（没让你失望吧）。要收费也是看损坏程度和人力投入，我们报的绝对是良心价（低到不好意思说），毕竟客户都已经很难过了……如果趁机狠狠的宰上一笔，那么也就是一锤子买卖，后续基本不会再有长久合作了，这是不符合我们的服务理念的。

这里引用中亦安图自身Oracle技术专家老猫的一张图片：

技术人生系列第十期·我和数据中心的故事·运维无小事之一次导致数据丢失的小变更

本期分享主题：

分享一个Oracle变更导致数据丢失的案例，然后启发大家思考这样一个问题，

你的Oracle 数据库运维体系真的完善么？

小y今天就为大家奉献这么一个真实的案例。分享的最后，除了进行技术风险的提示，我们还将就如何建设科学运维体系的话题给出中亦科技的观点，希望能对大家有所帮助。

案例分享的意义：

小y发现一个问题，就是别人不管再怎么做风险提醒，很多客户还是会犯一样的错误！

即使他知道别人已经遇到过的这个问题！

为什么他知道这个问题、这种风险，但是他还是犯了同样的错误呢？因为他没有切身之痛！如果只是在看别人的笑话，没有行动起来，从运维体系的角度做出整改，那么后续就很可能会出现类似的问题。小y希望读者朋友，可以领会小y每一次分享的精髓和良苦用心，做到由点带面，从运维体系的角度出发进行整改和预防，这样一来也就没有浪费小y的一片苦心。

先思考一个问题：

你的系统中是否还存在着类似下面这样一个处理逻辑的脚本呢？

为了避免归档日志来不及备份到磁带从而将归档文件系统撑满继而导致数据库hang，很多客户的系统中往往存在这样的一个脚本，当归档文件系统使用率达到60%的时候，启动脚本备份日志到带库，当归档日志使用率超过90%，删除归档日志，并且发出报警信息，提示归档日志被删除，需要尽快进行一次全备！

看上去这么做无可厚非啊，有问题么？

这么做到底有没有问题呢？看完小y接下来分享的具体案例，您就明白了：）

如果觉得网页版太长读的不过瘾，我们还提供PDF版本的下载，如何获得电子版pdf以方便阅读，请点击文章最下方“阅读全文”申请， 填写个人信息后，我们后续将第一时间发送电子版的pdf到您的邮箱，前100名会优先获得前九期的PDF 版本分享。

如果觉得分享的案例还不错，麻烦亲们抬手转发一下,希望可以提醒和帮助到更多的客户。

更多Oracle数据库实战经验分享和风险提醒的首发，尽在“中亦安图”公众号！欢迎关注。

有什么技术难题也可以给小y发邮件， 邮箱是 51994106@qq.com ,或者加小y的 微信(shadow-huang-bj) ，只要小y有时间，一定会尽力为大家解决疑难问题。着急的问题可以直接拨打小y的电话， 137-010-26113 Part 1

问题来了

悲剧出现

一个潜在的客户发现访问256号文件上的数据时报错，256号文件无法被访问。

进一步检查因为文件被offline，需要做recover。

并且该文件无法再online起来,原因是缺少归档日志，无法做recover。

于是向小y求救。小y心想，无非是两种情况

1）是不是归档日志备份到磁带上了

2）该归档日志被删除了

如果是第一种情况，那么就简单了，只需要从磁带上恢复回来即可！

如果是第二种情况，那就糟糕了，可能要丢数据了！

没关系，我们不惹事，事来了我们也不怕。

我们先来看下客户online数据文件的操作过程：

1.1 文件online

256号文件的online操作,显然oracle会提示该文件需要做介质恢复即media recovery。因为文件在offline的时候（不管什么原因）不会把该文件所对应的脏块刷到磁盘中。

1.2 Recover 数据文件

于是客户做了recover datafile 256的操作，并输入AUTO,但是数据库提示找不到序列号为14389的日志文件

1.3 查看报错信息

操作系统上检查，该日志文件也不存在

1.4 归档日志去哪了

是不是备份到磁带上以后，在文件系统上被删除了呢？

检查rman的备份情况，发现节点1所需要的归档日志根本没有任何备份的记录！

这下悲催了！256号文件online所需要的的归档日志已经被删除!数据可能要丢失了 ！

Part 2

事故时如何发生的

一个小变更怎么会导致这样的状况

经了解，这是一个IBM aiX上的10g RAC环境，数据文件采用裸设备。

客户最近刚为RAC做了一次表空间加数据文件的“小”变更！

那么文件被offline，以及归档日志找不到了，这两个问题的出现和这次变更有直接的关系么？给表空间加个数据文件，这样的变更也会导致数据丢失么？

也许你会觉得不可思议，不过小y基本已经猜到了过程。不同的地方总在上演着类似的悲剧。

到这里，建议读者朋友们可以先停一下，思考一下变更和这两个问题的关联！以及思考一下，如果是你，你接下来会协助客户怎么继续处理呢？

Part 3

剧情重现

为什么文件被offline&归档日志没了？

其实很简单，我们直接来看变更过程和问题出现的整个过程:

3.1 变更“成功”

1月4日11:50 分左右，客户发起了变更。在RAC第二个节点为某个表空间添加了两个数据文件，并且添加成功。Alert日志显示Completed。变更“成功”

3.2 真的成功了么？

但是变更真的成功了么？变更做的利索么？

15:07分 ，节点1 在做checkpoint的时候，需要更新每个数据文件头的SCN号，但是由于新加的裸设备的操作系统权限不对，出现io报错。显然，这是一个典型的RAC忘记修改一个节点权限的问题。这么多ORA-报错，如果这个时候发现并处理，那么一切还来得及！只是..没有可是了…

3.3 数据文件强制offline

15:07分，节点1由于裸设备的权限问题，checkpoint无法写文件头的SCN，因此新加入的两个数据文件被强制offline. 3.4 发现问题

过了N个小时，当节点1访问这两个文件中的数据开始报错时，客户开始意识到问题的严重性了！从视图v$recover_file中可以看到，file_id为256和257的两个文件处于offline状态。

发现裸设备权限忘记修改的问题后，客户修改了节点 1 的裸设备的权限并且执行 alter database datafile ‘/dev/xxx’ online 数据文件时，提示需要做 recover 。

检查发现节点 1 文件被 offline 期间的的归档日志在文件系统已经被删除， rman 还没来得及备份，再也无法恢复！

那么是什么原因导致归档日志被删除了呢？

还记得我们在文章一开始“前言”部分的下面这段话么？

你的系统中是否还存在着类似下面这样一个处理逻辑的脚本呢？

为了避免归档日志来不及备份到磁带从而将归档文件系统撑满继而导致数据库hang，很多客户的系统中往往存在这样的一个脚本，当归档文件系统使用率达到60%的时候，启动脚本备份日志到带库，当归档日志使用率超过90%，删除归档日志，并且发出报警信息，提示归档日志被删除，需要尽快进行一次全备！

看上去这么做无可厚非啊，有问题么？

这么做到底有没有问题呢？

没错，客户的系统中就存在着这么一个脚本！

由于备份到磁带不正常，导致归档日志文件系统使用率达到阀值，继而触发了脚本删除归档日志的操作！再加上变更时忘记修改一个节点裸设备权限的“巧合”，导致了悲剧的发生！

到这里，你是否还觉得为了避免数据库hang而删除归档日志，事后再发起全备的做法是一个安全的做法呢？答案显然是否定的！小y相信，90%以上的DBA在删除归档日志的时候是不会去查看v$recover_file中是否存在需要恢复的文件的！

Part 4

还有救么？

怎么解决？

这种情况下，有办法把数据文件online起来么？（当然也可以用抽取软件直接抽取数据）

小y这么问，自然是有办法，而且方法很简单（不到5步）。

用bbed将被offline文件的文件头的SCN改到和其他数据文件SCN一致即可，做起来也就几分钟，大家下来不防可以自己试一下。需要说明的是，这不过是一种骗过数据库一致性检测的方法，丢失了日志文件，数据丢失是不可避免的！

使用bbed修改数据文件头SCN时，唯一要小心的是修改时注意不同平台字节序的问题，linux平台是小字节序，高低位是相反的。

这里小y以自己环境的19号文件被offline后并且online需要的归档日志已经被删除的情况为例，来说明处理的过程。

4.1 检查SCN

检查v$datafile_header, 19号文件状态是offline,SCN和其他文件不一样

丢失日志的情况下，要想把文件online起来，只能骗过数据库，我们只要把19号数据文件的文件头上的SCN改成和其他文件比如17/18号文件一样就可以。

4.2 确定SCN

SCN号存在每个文件文件头（块号是1）的kcvfhckp.kcvcpscn这个结构当中，蓝色代表输入的命令，如下所示，红色部分即offset 484往后的4个字节表示SCNBASE，用16进制表示，我们将其用计算器转变为 10进制后，得到的数就是上图v$datafile_header的SCN。

4.3 注意字节存放高低位顺序

下图采用dump命令显示的的SCN号是 a883D301（见下划线）和上图中的

刚好是按照字节高低位相反的。

4.4 修改SCN

采用modify命令将19号文件的文件头上的SCN改成和其他文件比如17/18号文件一样，并重新计算校验值,最后verify确认BLOCK没检出异常就改完SCN了。

再次检查v$datafile_header,可以看到已经将19号文件已经被我们改成和其他文件SCN一样。

4.5 数据文件online

recover datafile后online起来，修复完成

Part 5

这是重点

故障原因总结:

本次案例中，为Oracle RAC表空间添加数据文件的一个变更，由于在一个节点忘记修改权限，导致数据文件被offline,后来归档日志由于文件系统使用率的原因，被脚本自动删除，从而导致了数据丢失的悲剧。通过bbed可以在没有日志文件的情况下把文件online起来，但是数据丢失是不可避免的！

中亦科技关于建设数据库科学运维体系的建议：

相信大家有一个共识，那就是“变更是导致故障的重灾区”。

运维无小事，变更无大小。

小的变更，往往因为熟练、轻视而没有充分准备详细的变更步骤。凭经验做事，加上熬夜疲惫、精神松懈等原因，很容易遗漏一些小的细节而导致大祸。

确实是这样的。

变更由人来操作（不可能用自动化运维手段来实现全部变更），是人就一定会有犯错的几率，即使是双人复核，也不能完全避免，而且真正长期做到变更双人复核的客户，绝对是少数。

那么，建设一套科学的运维体系就显得尤为重要了！

科学的体系下可以减少问题出现的概率。

以运维中的变更环节来举例，从方法论上来说，小y建议：

1、梳理所有的变更

2、梳理所有变更的风险点

3、针对每个风险点，缕出对应的可行性解决方案

4、解决方案从原则上说，是需要独立于现场实施人员的

具体到今天所分享的这个案例，小y认为有很多值得改进的地方：

1、对于采用裸设备的RAC环境，缺少对于每个节点数据文件在OS上权限的监控

如果有这样的一个监控点，很快就可以发现节点1忘记修改权限，那么也就不会被offline了，也就不会出现由于数据丢失引发的故障了

2、缺少对v$recover_file的监控

如果有这样的一个监控点，很快就可以发现文件被offline的情况，及时online起来就可以解决。另外，Online这个动作是否可以做成自动化呢？

3、缺少对alert日志ORA-错误的监控或及时处理的机制

监控点的级别设置是否准确呢？同样是ORA-错误，预警则很容易被忽略；而严重则会发送短信通知。例如，小y有些同事在数据中心，每天需要轮着值班，对着监控的告警，逐条确认和分析、处理，以确保不被遗漏，从而保障业务的连续性。

4、缺少对备份的监控或（和）及时处理机制

如果发现备份不成功的问题，例如备份作业太多导致排队，那么可以通过错峰、增加带机等形式，也就不会出现归档日志超过阀值得情况了。

5、系统中无论如何也不应该存在删除归档日志的脚本

不删除怎么办呢？数据库会hang啊？你是接受数据库hang还是数据丢失？答案是显而易见的。归档空间不够，这需要从空间规划来入手，不行就预留七天的空间。数据的安全比廉价的存储空间更重要

运维是一门科学，你不可能遇到所有的问题，所以就需要一个科学的运维体系来减少问题出现的概率！也欢迎大家和小y就如何构建科学的运维体系进行讨论。

本文转载于中亦安图的文章

您可能感兴趣的文档:

SQL 代码规范

MySQL 教程

Redis 教程

--结束END--

本文标题: 技术人生系列第十期·我和数据中心的故事·运维无小事之一次导致数据丢失的小变更

本文链接: https://lsjlt.com/news/47748.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

技术人生系列第十期·我和数据中心的故事·运维无小事之一次导致数据丢失的小变更

前言不知不觉，技术人生系列·我和数据中心的故事来到了第十期，小y又和大家见面了！前期我们分享了不少Oracle数据库故障和优化的实战案例，...

99+

2024-04-02

技术人生系列 · 我和数据中心的故事——第一期

小y这个名字，是笔者临时想的一个笔名，其实没有什么特殊的含义，就暂且用他来代表我们这些为各个数据中心奉献自己青春的一群默默无闻的IT人吧！小y今天要和大家分享的是一个疑难杂症的...

99+

2024-04-02

一次系统优化！-技术人生系列-我和数据中心的故事-第十七期

分享预告你的系统中是否存在间歇性的 IO 性能问题，或者一直以来都 IO 性能不佳呢？文章的最后，将给出共性的风险提示和检查方法，还犹豫...

99+

2024-04-02

技术人生系列 · 我和数据中心的故事（第十一期）- 一次启停引发的故障

春风轻轻吹走了冬日里的寒气，又到了一年最美的花季，伴随着温暖的阳光老K 再次与大家相...

99+

2024-04-02

这么用X86，小心ORACLE+RAC中招--技术人生系列第四十一期-我和数据中心的故事

最近有朋友和小 y 反馈：他们的一台 IBM 的 X86 服务器（现在属于联想）出现硬件损坏，维护人员通过管理口收集诊断日志给厂商时，服务器上运行的好好的一套 ORACLE 11...

99+

2024-04-02

看工程师的必备技能-技术人生系列第五十一期-我和数据中心的故事

前言：时间一晃已经来到了6月，技术人生系列文章已经半年没有更新了，在过去的半年时间里，我们技术人生系列文章的作者们一直奋战在工作一线，同时不忘积累和总结，为我们的文章提供更深厚的底蕴...

99+

2024-04-02

技术人生系列 · 我和数据中心的故事（第四期）-导致Oracle性能抖动的参数提醒

前言不知不觉，技术人生系列·我和数据中心的故事来到了第四期。小y又和大家见面了！当您看到业务系统压测呈现以下波浪形的tps曲线时，你会怎么下手？ ...

99+

2024-04-02

技术人生系列 · 我和数据中心的故事（第二期）——风险提醒之Oracle RAC高可用失效

前言不知不觉，技术人生·我和数据中心的故事来到了第二期，有朋友开始关心小y是谁，这不重要，我们更关心的是技术层面的分享以及给客户带来的实际的风险...

99+

2024-04-02

从“山穷水尽”到“柳暗花明”--技术人生系列第四十四期我和数据中心的故事

写在前面如果你的数据库性能经常抖动，时快时慢，你会怎么入手，又会怎么一步步排查解决的？是先看等待事件？还是看AWR或ASH？接下来优化SQL？调整参数？甚至更换硬件？...

99+

2024-04-02

足以摧毁整个应用的数据库设计--技术人生系列第二十八期-我和数据中心的故事

一个貌似简单却足以摧毁你整个应用的问题绝对不是危言耸听，直接点开大图来看看，如果你看完觉得这个问题并无所谓而轻易放过，那么问题背后隐藏的巨大的风险...

99+

2024-04-02

一个案例看Oracle的历史故障回放功 --技术人生系列第三十七期-我和数据中心的故事

11 月25日，周五晚上，正在家里看电视, 电话响了，是一位银行客户资深DBA的来电，也是我的好朋友、好兄弟，看来，他遇到麻烦了… “ 远邦,11...

99+

2024-04-02

动态增加CPU带来的数据库重启风险--技术人生系列第四十六期-我和数据中心的故事

线上的生产系统，因为一些原因，时不时会出现一些意想不到的性能问题，当紧急问题出现时，我们如果无法立即解决，有时通过调整系统硬件资源是一种快速有效的解决应急方式，确保系统能正常运行后，再做根...

99+

2024-04-02

如何解决程序时快时慢的业界性能难题--技术人生系列第二十九期-我和数据中心的故事

一个常见的经典问题，也是一个难缠的业界难题，基于Oracle的程序时快时慢，很多资深的DBA面临这个问题也是束手无策，没有一个最优的解决方案。如果你的数据库正经历各种性能问题，不妨联系中亦科技试一试...

99+

2024-04-02

技术人生系列-我和数据中心的故事（第五期）清算/报表/日终跑批程序之性能优化案例

前言不知不觉，技术人生系列·我和数据中心的故事来到了第五期。小y又和大家见面了！前几期主要发了一些TroubleShooting的案例分享，其...

99+

2024-04-02

软考高级职称资格查询

热门wiki

mysql删除数据恢复

mysql删表能回滚吗

mysql找回删除的表

mysql不小心删除了表

mysql不小心把表删了怎么恢复数据

mysql数据表删除后能恢复么

mysql误删表数据恢复

mysql误删表恢复

mysql删除表怎么恢复

mysql删除表

近期文章

Python连接和操作PostgreSQL数据库的流程步骤

关于SQL建表语句使用详解

RedisTemplate的使用与注意事项小结

使用MySQL从JSON字符串提取数据的方法详解

MySQL免密登录的几种配置方式小结

Oracle更换监听端口的流程步骤

Linux的HBASE数据库集群部署方法

MySQL与HBase在数据湖架构中的互补与融合

HBase的Region Server资源分配与调度策略

MySQL的查询优化器与HBase的查询优化策略在大数据查询中的协同

推荐阅读

关于SQL建表语句使用详解

2024-10-23

HBase在大数据审计与合规性追踪中的应用

2024-10-22

MySQL与HBase在大数据金融分析中的性能与可扩展性对比

2024-10-22

HBase的Region Server之间的网络通信优化

2024-10-22

HBase在大数据监控与告警系统中的实时数据处理能力

2024-10-22

MySQL与HBase在大数据安全策略中的实现与对比

2024-10-22

HBase的分布式事务处理在复杂业务场景中的应用

2024-10-22

MySQL与HBase在混合存储架构中的整合策略

2024-10-22

HBase如何支持高效的二级索引查询

2024-10-22

MySQL与HBase在物联网数据收集与处理中的协作模式

2024-10-22

热门问答

1
回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

1
回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

1
回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

1
回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

1
回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

1
回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

1
回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

1
回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

1
回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

1
回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

热门标签

Python操作PostgreSQL Python连接PostgreSQL Python连接和操作PostgreSQL SQL建表语句 SQL建表语句使用 RedisTemplate使用 MySQL提取数据 JSON提取数据 MySQL从JSON提取数据 MySQL免密登录 MySQL免密登录配置 Oracle端口 Oracle修改端口 Oracle更换端口 Oracle更换监听端口 HBASE部署 HBASE集群部署 oracle中的trunc函数 oracle中trunc winx64安装格式化yyyy-mm-dd mysql时间戳格式化yyyy-mm-dd mysql8.0.15重置密码 mysql8.0.15修改密码 2059 Navicat连接MySQL出现2059 DBeaver导入数据 DBeaver导入excel大量数据 DBeaver导入excel数据 dbeaver导出