Check CRS啟動問題的步驟是什么,很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細講解,有這方面需求的人可以來學習下,希望你能有所收獲。
IBM CSC中心的一次計劃性完全斷電,(主機、存儲的初始化)引起了測試環境上的RAC故障。在故障恢復中,通過排查問題,了解了不少以前從沒關注的OCR相關知識點。
系統結構:2節點Oracle 10gR2 RAC
主機系統:P570 AIX 5300
存儲:DS4800
主機重啟后,RAC的1個節點故障,CRS服務不可用、嘗試重啟失敗,且查看CRS服務的日志crsd.log沒有任何記錄更新,如下:
------------------------------------------------------------------------------------------------------
# crsctl start crs
Attempting to start CRS stack
The CRS stack will be started shortly
# ps -ef|grep d.bin
root 176436 127580 0 13:39:03 pts/3 0:00 grep d.bin
# crs_stat -t
CRS-0184: Cannot communicate with the CRS daemon.
# crsctl check crs
Failure 1 contacting CSS daemon
Cannot communicate with CRS
Cannot communicate with EVM
#
------------------------------------------------------------------------------------------------------
排查的過程中,發現的問題是層出不窮,簡直是把AIX平臺上CRS服務可能存在的故障完全遇到了一遍,讓我覺得不總結都對不起一天的折騰。
OCR和voting disk是CRS服務的最重要的設備文件,所以遇到CRS服務有關的問題,我們可以從這兩個設備文件相關的硬件設備hdisk進行問題排查。
1. 檢查OCR and voting disk設備文件
RAC節點的CRS服務啟動失敗,首先想到的是各節點上OCR和Voting disk設備是否可用、且一致。
檢查RAC各節點的OCR和voting disk設備文件是否正常,命令如下:
檢查OCR設備文件狀態,root用戶執行
#ocrcheck
檢查Voting Disk設備文件狀態,oracle用戶運行
#crsctl query css votedisk
當然,/dev/rhdisk*只是數據庫 標識的disk file name,我們最好確認2個節點上識別的device是否為同一塊hdisk。AIX平臺上使用"lscfg –vl hdisk*”查看hdisk的sn號進行核對。
2. 檢查OCR and voting disk設備文件的權限和屬組
AIX平臺上安裝CRS服務之前,需要分別賦予OCR和voting disk設備盤以下屬組和權限:
OCR設備 chown root:dba /dev/rhdisk_OCR
chmod 660 /dev/rhdisk_OCR
Voting disk設備
chown oracle:dba /dev/rdisk_votedisk
chmod 660 /dev/rhdis_votedisk
排查故障時,設備的讀寫權限很容易被忽略,我遇到的問題原因之一就是由于OCR設備屬組和讀寫權限不當導致CRS服務不正常。錯誤記錄如下:
------------------------------------------------------------------------------------------------------
故障節點OCR設備
oracle@clostb1/oracle>ls -la /dev/rhdisk22
crw------- 1 root system 20, 23 May 28 11:44 /dev/rhdisk22
正常節點OCR設備
oracle@clostb2#]ls -la /dev/rhdisk22
crw-r----- 1 root dba 36, 23 May 28 14:57 /dev/rhdisk22
------------------------------------------------------------------------------------------------------
root用戶修改故障節點OCR設備的權限和屬組后,重新啟動CRS服務,正常。
3. 檢查OCR and voting disk設備的MPIO屬性
恢復故障節點中發現,在修改設備屬組合權限修復了故障節點的CRS服務后,另外一個節點的CRS服務又出現異常,如下:
-----------------------------------------------------------------------------------------------------
# crs_stat -t
CRS-0184: Cannot communicate with the CRS daemon.
#
# ocrcheck
PROT-602: Failed to retrieve data from the cluster registry
#
[oracle@clostb2#]crsctl query css votedisk
OCR initialization failed accessing OCR device: PROC-26: Error while accessing the physical storage Operating System error [Invalid argument] [22]
[oracle@clostb2#]
------------------------------------------------------------------------------------------------------
檢查OCR設備文件發現,同一塊盤在2個節點的MPIO屬性不一致,故障節點OCR設備的reserve_policy屬性設置為single_path,這是導致CRS服務故障的原因。
metlink上有OCR和voting disk設備MPIO屬性設置的解釋和命令,如下:
-----------------------------------------------------------------------------------------------------
To allow concurrent IO access to this disk device and prevent the device driver from locking the hdisks with a reservation on open, a no reservation flag must be set. Use the following chdev command to disable this reservation.
All MPIO-capable (ESS, DS8000, DS6000 devices):
chdev -l hdiskn –a reserve_policy=no_reserve
chdev -l hdiskm –a reserve_policy=no_reserve
For EMC (Symettrix &Clariion), HDS, IBM DS4000, and non-MPIO capable devices, perform. the following:
chdev -l hdiskn –a reserve_lock=no
chdev -l hdiskm –a reserve_lock=no
------------------------------------------------------------------------------------------------------
AIX平臺上使用”lsattr –El hdiskN”命令檢查hdisk設備的屬性。修改reserve_policy為no_reserve,故障節點的CRS服務均恢復正常。命令如下:
#chdev -l hdisk22 -a reserve_policy=no_reserve
注意:檢查voting disk及ASM使用的盤,均要設置reserve_policy=no_reserve。
4. 檢查OCR設備的配置文件ocr.loc
ocr.loc文件是安裝CRS服務時執行root.sh腳本過程中建立的,一般存放在/etc/oracle/路徑下,主要記錄crs服務啟動時的ocr設備信息,內容如下:
------------------------------------------------------------------------------------------------------
# ls -trl /etc/oracle/ocr.loc
-rw-r--r-- 1 root dba 45 Apr 08 14:16 /etc/oracle/ocr.loc
# cat /etc/oracle/ocr.loc
ocrconfig_loc=/dev/rhdisk22
local_only=FALSE
#
------------------------------------------------------------------------------------------------------
如果ocr.loc設置的ocr盤與實際不符,或是該文件被清空等都回引起CRS服務故障,日志會記錄無法訪問OCR設備的錯。我就遇到過該文件被清空,導致CRS服務不能啟動的問題,折騰好久才發現。
看完上述內容是否對您有幫助呢?如果還想對相關知識有進一步的了解或閱讀更多相關文章,請關注創新互聯-成都網站建設公司行業資訊頻道,感謝您對創新互聯的支持。
網站標題:CheckCRS啟動問題的步驟是什么-創新互聯
URL地址:http://m.kartarina.com/article6/dicpog.html
成都網站建設公司_創新互聯,為您提供靜態網站、動態網站、商城網站、網站改版、域名注冊、品牌網站制作
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯