您的当前位置:首页正文

B小型机日常维护手册

2020-06-18 来源:小奈知识网
IBM P750小型机 日常维护手册

一、 服务器硬件运行状态检查

1. 当服务器处于启动和正常工作状态时,其前面板上的状态灯(与电源灯并排)和各硬盘的状态灯(一

排小灯,与各硬盘位置一一对应)应显示为绿色。

2. 当服务器的状态灯出现橙黄色时,说明有硬件告警,此时要检查服务器的电源、接线、硬盘等。如果

有硬件故障则需要立即进行更换和更正,如果查不出具体问题,则需要联系相关专家进一步诊断。 3. 当硬盘工作正常时,与各硬盘对应的硬盘灯会呈绿色,如无读写,则绿灯一直亮,如该硬盘有读写操

作,则绿灯会不规则闪烁,当硬盘损坏时,则硬盘状态灯将熄灭,或者呈闪烁状态:以1~3秒的频率有规律地、不停地闪烁。

如果发现有服务器硬件状态灯不正常的情况,请及时联系我公司工程师,以便及时进行诊断并解决故障。

二、 HMC(硬件管理平台)管理与操作

HMC的两种访问途径:

1、 在机房直接通过显示器和键盘进行管理维护等相关操作 2、 通过web远程访问,登录HMC web管理界面,访问地址为:

1、 登录HMC

1.1 浏览器访问连接HMC后,首页界面如下图所示。 1.2 点击下图所示链接,进入HMC验证登录界面。 1.3 输入用户名与口令,登录HMC。

用户名:hscroot 口令:

1.4 成功登录到HMC管理界面如下图所示。

2、 注销HMC

在HMC console右上角有(hscroot | help | log off)链接,单击log off,会出现如下图所示注销界面: 选择Log off,系统返回到HMC初始登录界面状态。

3、 重启HMC

左边导航栏中选择  HMC Management  shut down or Restart,如下图所示,对HMC进行正常重启及关机操作。

请谨慎对HMC进行关机和重启操作!

4、 状态栏功能

状态栏位于HMC左下角位置,如下图所示,负责监控并反映管理系统资源状态和HMC状态。 单击每个图标状态可以列出详细状态,你可以查到更详细的帮助信息:

:非法操作,如果任何被管理的主机执行了非法操作,这个图标将会变亮。 :黄灯警告, 如果任何被管理的主机有错误并有黄灯被点亮,这个图标也将会变亮 :报错日志:日志中有报错信息,这个图标将会变亮,此项与 :摘要,摘要中会将有用信息做统计并显示在工作栏中。

5、 Service Management

导航栏中Service Management强大的管理功能给用户日常维护提供了更简单直观的界面,如下图所示, 但日平时最常用的子项是Manage Serviceable Events,如下图步骤可以对HMC所管理的设备进行日常

错误及时直观的观察,以确保IBM小型机能正常工作,下图就是基本的操作方法图示: Service ManagementManage Serviceable Events

6、 Service Plans-分区管理与操作

6.1 如何查看小型机资源配置:

如上图红色标注所示,选中所需查看主机(备注:请不要同时选中多台主机及多个分区),在下拉菜单中选中“Properties”,打开参数窗口,通过“Properties”可以查看主机运行状态,CPU,内存,I/0等重要硬件系统参数,如下图所示。

同理,在分区区域中先中每分区后的Properties选项,便可以直观方便的掌握分区状态和资源配置信息。

6.2 如何开关机及激活分区:

关机。 开机。

Operation项中主要包含小型机及分区开关机,及消除报警灯这两项功能,如虽要对小型机下电操作,请先将图15中的分区Deactivate(建议:最好在操作系统中按照正常流程将操作系统shutdown),最后再将主机power off。

注意:非特殊情况,无专业人员指导,严禁进行开关机操作!

6.3 手动消除黄灯警告

如下两图所示, Operations中LED status,及Deactivate Attention LED两项中所指,针对不同分区或主机所报出的警告黄灯,进行特定的消除黄灯操作。

6.4 如何打开控制终端(Terminal Window)

在HMC上对分区操作系统进行操作,可以通过分区下拉菜单Console Window-Open Terminal Window

对选中分区进行操作,如图所示,操作界面如同telnet界面。

在HMC中同一分区只允许打开一个Terminal Window,如试图打开第二个窗口,系统提示如图17所示界面。

三、 AIX系统日常维护

1、查看系统的错误记录

很重要,应该定期查看,如发现有硬件(H)类型的报错,应该及时关注。

在系统运行时,一些系统错误会记录在errlog 中,其中有些错误还会在终端上显示。 检查错误日志可用以下命令: #errpt | more 查看系统所有的记录

IDENTIFIER TIMESTAM P T C RESOURCE_NAME DESCRIPTION errdemon ERROR LOGGING TURNED ON errdemon ERROR LOGGING TURNED OFF clstrmgr OPERATOR NOTIFICATION 其中

IDENTIFIER 为错误编号,当需要检查详细信息时常会用到。

TIME STAMP 为时间标签,它记录的是出错时间,其格式:月月日日时时分分年年 T 为Type , 它记录的是错误类型

P :为永久错误,需引起注意 T :为临时错误。

C 为Class, 它记录的是错误种类,如

H : Hardware

S : Software

O : Errloger command messages U : undetermined

RESOURCE_NAME 为错误来源 DESCRIPTION 为错误描述

#errpt -aj 查看系统详细记录内容 其中IDENTIFIER为错误编号,如 #errpt -aj #errpt -dH

查看系统所有的硬件出错记录

2、日常检查服务器状态的项目及其相关命令

2.1 运行lsdev 命令配以各种参数,所列各种设备状态都应为Available。

#lsdev –C –H –S a

列出系统中可用设备。

#lsdev –Cc processor #lsdev –Cc memory #lsdev –Cc disk

列出系统中的所有CPU。 列出系统中的所有内存。 列出系统中的所有硬盘。

列出系统中的所有网卡 列出系统中的所有SCSI卡。 列出系统中的所有SSA卡。

#lsdev -Cc adapter | grep ent #lsdev -Cc adapter | grep scsi #lsdev -Cc adapter | grep ssa

2.2 lspv命令

#lspv

显示系统中可用的PV。 显示hdiskn的具体信息。

#lspv hdiskn

#lsdev –Cc pdisk 显示磁盘阵列的硬盘的具体信息。

2.3 lsattr命令

# lsattr –E –l mem0

列出系统中内存mem0的大小,本项目中内存有4GB。

2.4 lsvg命令

#lsvg

列出系统中所有的vg。 列出rootvg的详细信息。

#lsvg rootvg

#lsvg –o 列出激活的vg

2.5 oslevel命令

#oslevel

显示操作系统版本信息。

2.6 netstat命令

#netstat –in 显示系统中各网卡的配置。可查看网卡的IP配置好了没有。

2.7 diag命令

通过运行# diag 命令运行硬件诊断程序检测主机内所有硬件,检测结果为 “No trouble found ”显示各部分工作正常。

2.8 lsps查看页面空间

lsps –a 查看PAGING SPACE的使用情况,如果使用率超过70%,就需要采取措施。

2.9 查看LV(卷)状态

lsvg –o | lsvg –il | grep –i stale查看有无stale的lv,如果输入该命令之后有输出结果,就需要采取措施

2.10 查看mail

# mail,查看有否发给root用户的错误报告(mail)。

3、检查文件系统

查看有没有“满”的文件系统。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。 如/ (根文件系统)满则会导致用户不能登录。 # df -k (查看AIX的基本文件系统)

Filesystem 1024-blocks Free %Used Iused %Iused Mounted on /dev/hd4 24576 1452 95% 2599 22% / /dev/hd2 614400 28068 96% 22967 15% /usr /dev/hd9var 8192 4540 45% 649 32% /var /dev/hd3 167936 157968 6% 89 1% /tmp /dev/hd1 16384 5332 68% 1402 35% /home 除/usr文件系统,其他文件系统都不应太满,一般不超过80%。

4、性能监控与调优

4.1 通过topas来观察

topas能够将系统的全局信息,包括CPU、内存、磁盘、网络、文件系统、事件队列、文件等信息,排列在一个统一的界面上进行展示。 bash-4.3# topas

Topas Monitor for host:localhost EVENTS/QUEUES FILE/TTY Wed Feb 22 10:42:00 2017 Interval:2 Cswitch Readch Syscall Writech CPU User% Kern% Wait% Idle% Reads Rawin Writes Ttyout

Forks Igets Network BPS I-Pkts O-Pkts B-In B-Out Execs Namei Runqueue Dirblk Waitqueue

Disk Busy% BPS TPS B-Read B-Writ MEMORY PAGING Real,MB Faults % Comp FileSystem BPS TPS B-Read B-Writ Steals % Noncomp PgspIn % Client PgspOut

Name PID CPU% PgSp Owner PageIn PAGING SPACE PageOut Size,MB Sios % Used % Free NFS (calls/sec)

SerV2 WPAR Activ CliV2 WPAR Total SerV3 Press: \"h\"-help CliV3 \"q\"-quit SerV4

4.2 通过命令vmstat 1 来观察.

kthr memory page faults cpu

----- ----------- ------------------------ ------------ -----------

r b avm fre re pi po fr sr cy in sy cs us sy id wa

命令解析:vmstat 命令的输出可以反映系统整体运行状况,包括cpu、内存、虚拟页面、系统进程和系统调用情况。

检查CPU是否为瓶颈,分别检查CPU的四项数值和kthr的两项数值. 检查MEM是否为瓶颈,分别检查Memory的两项数值和Page 的六项数值.

4.3 通过命令 sar –mu –P ALL 来观察。

命令解析: sar可以用来收集反映系统运行状况,在这里主要是查看CPU的运行状况,CPU是否负载均衡,是否存在分配不均的情况。

4.4 通过命令ps gv | more来观察。

PID TTY STAT TIME PGIN SIZE RSS LIM TSIZ TRS %CPU %MEM COMMAND 0 - A 4:20 7 12 14516 xx 0 14504 0.0 5.0 swapper 1 - A 1:33 103 78952 79044 32768 25 36 0.0 29.0 /etc/init

命令解析:ps可以用来查看进程的当前状态。在这里通过参数的配搭,可以观察目前正在运行的进程所耗的时间,CPU和memory 量.其中,%CPU表示进程所占用的CPU资源情况,%MEM表示进程所占用的内存情况。主要检查是否有标示为的僵尸进程耗用系统资源,以及informix 数据库的oninit进程的系统消耗情况。

4.5 通过命令iostat 1 –d hdiskX观察磁盘

在机器上用dd命令进行磁盘阵列的写操作校验,与此同时用iostat 1 –d hdiskX观察磁盘。 Disks: % tm_act Kbps tps Kb_read Kb_wrtn

命令解析: iostat可以用来查看系统的 I/O的输入输出情况,在这里主要查看阵列上的硬盘的每秒读写量,

同时估算磁盘阵列读写速度。

4.6 通过命令netstat –a 进行查看。

Active Internet connections (including servers)

Proto Recv-Q Send-Q Local Address Foreign Address

(state)

命令解析: netstat可以用来查看系统的网络情况,在这里主要是查看网络客户端连接的情况和开销,检查参数为state,如有死连接,state状态为fin_wait, 这样耗用系统网络资源,从而导致网络性能下降构成瓶颈。

以上所有命令及参数的相关含义和详细信息,请参考AIX命令大全。

因篇幅问题不能全部显示,请点此查看更多更全内容