linux系统监控常用命令

浏览数：25 / 时间：2015年06月20日

原文:http://blog.sina.com.cn/s/blog_68f1c17001016uvy.html

Linux提供了很多用于监控系统的工具，使用这些工具可以找到导致系统性能降低的瓶颈。系统反应慢并不总是由于CPU慢，它也可能是因为磁盘速度太慢、系统中安装的内存较少、网络拥挤或其他反应较慢的系统部件导致。

一、top –进程活动监控

最广泛使用的系统性能监控工具是top,你启动top后，它每隔五秒显示一屏信息,动态实时地显示系统状态。

top的输出显示如下：

在最顶行显示了系统名和信息被收集和显示的时间。Top命令的输出被分为3个主要部分。这3个部分是CPU、内存和进程。

CPU部分显示如下信息：

load average后后面有三个数据，分别是当前1分钟、过去5分钟和过去15分钟的平均负载。这个信息对于检查系统负载的突然改变很有用。
当前系统中活动的进程数量。
进程的每个状态，上图显示了在254个进程中，220个在睡眠状态，34个在运行状态。
在每一个CPU时间状态中使用的百分率。如果系统有多个CPU，会为每个CPU提供一行。在上图中26%的CPU时间是空闲的，其中CPU0的空闲率只有0.4%，看来比较繁忙。

内存区部分显示如下信息：

已安装的物理内存总量
活动的物理内存
虚拟内存
可用虚拟内存
可用内存总计

进程的数据构成很多列，这些列根据CPU的利用率降序排列，使用CPU最多的进程在最上面。

进程区部分显示如下信息：

CPU 表示被执行进程的CPU号
TTY 进程使用的终端
PID 进程ID
USERNAME 进程的所有者名
PRI 进程优先级
NI nice值
SIZE 内存中进程的总大小
RES 进程的驻留大小，它是一个大概值。
STATE 进程的当前状态
TIME 进程消耗的CPU时间
%WCPU 进程CPU利用率权重百分比
%CPU 进程的原始CPU利用率百分比
COMMAND 启动进程的命令名

退出使用top,按q键

二、vmstat – 收集系统活动，硬件和系统信息

vmstat命令可以显示虚拟内存的统计数据，它显示有关进程、页的错误，同时这个命令也可以用来看CPU和磁盘I/O的信息

a.在procs子标题下的域：

·r 在运行的进程数量

·b 被资源阻塞的进程数，（可能在等待I/O或内存）

·w 正在等待运行的进程，它们已经从主内存中被交换出去（由于内存短缺）

需要注意的是w域，它表示进程被交换(swap out)出去的数量，如果这个列的值不为0，则表示你的内存有问题。

b.在memory子标题下的域：
·avm 活动的虚拟内存，指分配给进程的内存页
·free 表示实际的可用内存页大小

c.在page子标题下的域：

·re 回收的页，一个很大的数字表示内存不足

·at 地址转换错误

·pi 换入的页（page in）

·po 换出的页

·fr 每秒释放的页

·de 短期预计的内存不足

·sr 指page后台程序在找到可用内存空间时需要扫描检查的页数（san rate）。

在这些域中最重要的是pi、po、de和sr域，当程序开始时，可以看到在pi下有page in的活动，这种活动是正常的。但是，如果是在程序启动后，仍然发现进程有从磁盘page in的活动，这说明情况不太好。po是指系统把进程移出，以便给其它进程留出内存空间，如果有活动，也是一个不好的信号。如果你发现在de项的数值不为0，这表明有很大的问题，这个值表示预期会有内存短缺

d.在fault子标题下的域(显示了最近5秒钟每秒的陷阱和中断率)：

·in 每秒的设备中断

·sy 每秒钟的系统调用

·cs CPU上下文的转换速率

e.在cpu子标题下的域

·us 正常或低优先级进程的用户时间

·sy 系统时间

·id 空闲时间

可以使用下面的vmstat命令方式，每5秒钟收集一次性能数据，共显示3次

三、 uptime –看系统已经运行了多久

最简单看系统load的命令是 uptime，它通常用来看机器已经运行了多久时间:

它给出了三个方面的信息，首先你可以了解服务器已经运行了多久，如果你发现服务器运行的时间很短，而最近并没有安排服务器重启，可能服务器有存在问题，导致系统在最近自动重启。下一个信息是用户的数量，由于应用和数据库用户并没给直接通过操作系统访问服务器，因此并不能真实的反映有多少人在使用这个服务器，但是你还是可以了解下，对特别大或特别小的数要注意。最后是系统的平均负载load average,如上图所示，系统过去1分钟的负载是0.04，过去5分钟的平均负载是0.11，过去15分钟的平均负载是0.14，

四、w – 找出哪些用户在访问系统，在干什么

W命令显示当前机器上用户的信息和他们的进程。

五、 ps –显示进程信息

使用ps命令列出进程，ps命令不带参数将列出调用该命令用户的所有进程。该命令的典型输出如下：

为了列出所有的进程，你可以使用ps命令带-ef选项。

六、iostat –统计CPU平均负载和磁盘活动

iostat 命令可以用于监控磁盘驱动器的I/O行为：

device 显示给出报告的实际磁盘设备
bps 显示每秒钟输入/输出的千字节
sps 列出每秒查找的数量
msps 平均每个查找需要的好描述数

如下命令显示3次IO的统计信息，每5秒一次。

七、sar –收集和报告系统活动

可以用sar(System Activity Report)系统行为报告来检查磁盘的I/O。

下面的sar命令，每3秒钟显示一次磁盘IO的统计信息，共收集5次。

bread/s 每秒钟从磁盘到缓冲存储器的读操作次数
lread/s 每秒钟从缓冲存储中的读操作次数
%rcache 对于读操作缓冲存储器的命中率
bwrite/s 每秒钟从缓冲存储器到磁盘写操作的次数
lwirt/s 每秒钟向缓冲存储器中写的操作次数
%wcache 对于写操作缓冲存储器的命中率
pread/s 每秒钟从裸设备中读操作次数
pwrit/s 每秒钟向裸设备写操作次数

有磁盘的％busy值经常大于50吗？对于该磁盘，是否同时存在其avwait>avserv

的现象?（因为涉及到physical IO 和logical IO 的配置平衡，以及buffer page/swap空间/异步读写等问题，磁盘瓶颈很难通过单一因素判断，50％只是一个大概的评估标准，要结合具体情况综合分析。有时候，%busy仅仅为20 就已经是磁盘瓶颈，而另外的我们认为磁盘工作正常的系统，％busy值很可能已达到80）。

还可以用sar命令监控CPU的负载，sar命令的-u选项显示CPU的统计信息，输出显示了诸如用户、系统、等待I/O和空闲状态的CPU时间分配。如下命令显示5次CPU的统计信息，每3秒一次。

报告CPU的利用率是以百分率的形式给的，看系统进程%sys、用户进程%usr和空闲进程%idel各自所占的百分率,此外还有%wio表示有多少时间在等待磁盘的I/O。如果CPU的空闲很高，那你可以不用做什么，但如果长时间内％idle值<5 ，表明CPU利用率很高，说明CPU很可能有瓶颈，，你需要进一步分析。

一般来说，我们不希望系统进程占用了很高的CPU负载，，CPU应当更多的服务用户进程，就一般而言，我希望看到系统进程占20%或30%，用户进程占70%或80%。

如果长时间内％usr>80说明CPU资源基本上被用户进程占用，CPU存在明显瓶颈。

如果％usr 值很少>80，系统可能的瓶颈存在于CPU、memory或I/O 中间。

如果％wio值>15，这是磁盘有瓶颈的信号。