对Oracle数据库坏块的理解

1.物理坏块和逻辑坏块

      在数据库中有一个概念叫做数据块的一致性,Oracle的数据块的一致性包括了两个层次:物理一致性和逻辑一致性,如果一个数据块在这两个层次上存在不一致性,那就对应到了我们今天要要说的物理坏块和逻辑坏块。

      在每一个数据块的头部有一个校验和字段,每当数据块要被写回磁盘前,Oracle都会重新计算 这个数据块的校验和,并记录到这个字段最终写会磁盘。下次数据块被读入内存,Oracle会重新 计算数据块的校验和,并和块头的字段相比较,如果有差异,Oracle就知道这个数据块有错误, 会报出ORA-1578错误。    通过校验和字段进行的检查就是物理一致性检查,这个功能可以让Oracle检查到所有底层的错误, 包括磁盘、存储、IO子系统,所以称做物理一致性检查。

     在Oracle中每当要修改一个数据块中,会先对数据块内容做一个一致性检查(如检查记录 是否被不存在的食物锁定、记录和索引是否对应等)。如果这种一致性检查失败,就会抛出 ORA-600的Internal错误。当Oracle检查到数据块的逻辑一致性时,会尝试对数据块做 Cache Recovery,如果不能把数据块恢复到一致状态,Oracle就会把这个数据块标志为 Software Corrupt,当有查询访问到这数据块时,也会抛出前面ORA-1578错误。

      物理一致性检查利用校验和字段工作,主要侧重于检查硬件故障,并不关心内容正确与否, 而逻辑一致性检查就是侧重于内容的检查,内容检查要比校验和检查复杂的多。 逻辑一致性检查内容要多于物理一致性检查。

 

2.发生坏块的原因

       造成数据块损坏的原因多种多样,可是因为物理原因导致,也可能人为原因或Oracle bug导致。比较常见的人为原因异常关机、掉电、终止服务使进程异常终止,从而破坏数据的完整性,导致坏块的产生。发生数据块损坏的原因时,最典型的表现是遇到ORA-01578错误(比如在全表扫描时),有时也可能是ORA-600内部错误。

 

3.检查数据块的一致性

    (1)使用初始化参数检查数据块的一致性

     通过设置初始化参数db_block_checksum=true/false来启用、关闭物理一致性检查,启用该参数这会 增加1%~2%的负载,Oracle推荐启用该参数。在Oracle9i、10g中,默认是启用的。

     通过设置参数db_block_checking=true可以启用数据块的逻辑一致性检查。启用该参数这会 增加1%~10%的负载,尤其DML操作越密集性能影响越大。在Oracle10g中这个参数 默认值是false,这将意味这数据库只对System表空间做逻辑一致性检查。

 

    (2)DBV工具对数据块物理/逻辑性检查

   详情:http://book.51cto.com/art/201108/287893.htm

 

    (3)analyze命令检查数据块一致性

     analyze命令有很多中用法,可以完成很多功能,具体可参考:http://blog.csdn.net/tianlesoftware/article/details/7055164

     analyze命令检查对象一致性:   analyze table tablename validate structure cascade online(offline);

     该命令同样会执行物理和逻辑一致性检查。除此之外,它还会检查表和索引条目的匹配性,检查分区表的记录是否在正确的分区中, 检查出的问题会放在USER_DUMP_DEST目录的trace文件中。

      使用该命令注意一下几个问题:

      *当检查分区表的记录是否在正确的分区时,可以把检查出来的记录的ROWID记录在一个特殊表中,这个表叫做invalid_rows,该表需要   使用utlvalid.sql脚本提前建立,检查语法:   analyze tablename validate structure into invalid_rows;  

      *如果检查索引,这个命令会检查数据块和索引的一致性,但是不会确认每条记录都有相应的索引项或这索引有对应的记录,  如果需要这种检查,需要使用cascade关键字。  

      *如果使用online子句,可以在DML操作时在线检查一致性,只是这时不会收集对象的统计信息;而如果使用offline表会被锁住。

 

    (4)使用rman工具检查

     *检查数据文件
      backup check logical validate [database];
 
     *检查单个数据文件
      backup check logical validate datafile 1,2;
 
     *检查整个库
      backup check logical validate database    检查的结果放在v$database_block_corruption这个动态视图中。

      *这个命令对系统性能有一定的影响。

 


     (5)使用dbms_repair.check_object方法执行检查
      详细可参考:http://blog.itpub.net/8494287/viewspace-1357457/

 

  (6)利用exp工具导出整个数据库可以检测坏块


    导出命令在执行中会报ORA-01578错误,在这错误提示中会提示那个文件号的文件以及这个文件中的哪个块被损坏,如:ORA—01578:ORACLE 数据块损坏(文件号 4,块号 35)。利用exp工具进行检查坏块也局限性,对一些类型的坏块是检测不出来的如:HWM以上的坏块是不会发现的、索引中存在的坏块是不会发现的、数据字典中的坏块是不会发现的。

 

 

-----待续

 

郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。