2010年5月19日星期三

Linux服务器整体性能监控攻略

网管实战:Linux服务器整体性能监控攻略

Linux服务器性能监测是很重要的工作,服务器运行应该提供最有效的系统性能。当服务器系统性能突然低于平均应有的情况,问题可能来自在执行的进程、内存的使用率、磁盘的性能、网络流量和CPU 的压力。在预算短缺的今天,理解如何优化系统性能比以往任何时候都重要。要实现它的前提是,你必须充分了解自己的计算机和网络,从而找到真正的瓶颈所在。本文提供一些基础的工具来辨别和处理一些性能问题。使用的Linux 发行版本是Red Hat Enterprise Linux 4,工作过程是:首先查看整个系统的状态,然后是检查特定的子系统。    Linux服务器进行性能监控有几种方法,每种方法都各有其优缺点。

 使用SNMP等标准工具

    标准及非标准工具能执行一个或多个收集、合并及传输阶段,如rstatd或SNMP工具,然而标准的rstat后台程序提供的信息是有限的,速度慢而且效率低。

 内核模块

    几个系统监控工程利用内核模块来存取监控数据。一般情况下,这是很有效的收集系统数据的方法。然而这种方法存在的问题是,当主内核源内有其它改变时,必须保持代码一致性。一个内核模块可能与用户想使用的其它内核模块相冲突。此外,在使用监控系统之前,用户必须获得或申请模块。

 /proc虚拟文件系统

    /proc虚拟文件系统是一个较快的、高效率执行系统监控的方法。使用/proc的主要缺点是必须保持代码分析与/proc 文件格式改变的同步。事实表明,Linux内核的改变比/proc 文件格式的改变要更频繁,所以,用/proc虚拟文件系统比用内核模块存在的问题要少。本文介绍的方法即基于/proc虚拟文件系统。
一、 /proc文件系统特点
    Linux 系统向管理员提供了非常好的方法,使他们可以在系统运行时更改内核,而不需要重新引导内核系统。这是通过 /proc 虚拟文件系统实现的。/proc 文件虚拟系统是一种内核和内核模块用来向进程 (process) 发送信息的机制 (所以叫做 /proc)。这个伪文件系统让你可以和内核内部数据结构进行交互,获取 有关进程的有用信息,在运行中 (on the fly) 改变设置 (通过改变内核参数)。 与其他文件系统不同,/proc 存在于内存之中而不是硬盘上。不用重新启动而去看 CMOS ,就可以知道系统信息。这就是 /proc 的妙处之一。/proc 目录里主要文件内容,见表-1:
表-1

   小提示: 每个Linux系统根据软硬件不同/proc 虚拟文件系统的内容也有些差异。/proc 虚拟文件系统有三个很重要的目录:net,scsi和sys。Sys目录是可写的,可以通过它来访问或修改内核的参数,而net和scsi则依赖于内核配置。

二、 系统负载监测

    1 使用uptime命令

    使用uptime命令可以查看系统负载,系统平均负载被定义为在特定时间间隔内运行队列中的平均进程数目。如果一个进程满足以下条件则其就会位于运行队列中:没有在等待I/O操作的结果、它没有主动进入等待状态(也就是没有被调用、没有被停止。

    # uptime

    9:51pm up 3 days, 4:43, 4 users, load average:6.02, 5.90, 3.94
    上面命令显示示最近1 分钟内系统的平均负载是6.02,在最近5分钟内系统的平均负载是5.90,在最近的15 分钟内系统的平均负载是3.94。一共四个用户。对于上面的例子来说,由于笔者系统使用是双CPU,那幺其每个CPU的当前任务数为:6.02/2=3.01。另外可以使用cron命令进行定时监测系统负载:
    # crontab -e
    此时打开一个vi编辑器:输入以下内容:
    #30 * * * * * uptime
    存盘退出,这样每隔30分钟就记载其平均负载,这样累计一天,我们就可以得到最近一天的平均负载。

    2 使用cat /proc/loadavg命令

    #cat /proc/loadavg
     0.40 0.79 0.70 2/245 4101
     Cat /proc/loadavg提供以下数据:
    1秒钟平均负载;5秒钟平均负载;15秒钟平均负载;总作业数;正在运行的作业总数。

    3 使用cat /proc/stat命令

    # cat /proc/stat
    cpu  16015 1353 28840 101677 3602 664 4323
    cpu0 16015 1353 28840 101677 3602 664 4323
    intr 1605646 1565008 52 0 4 4 0 6 0 1 8664 296 16675 1418 0 0 13518
    ctxt 617320
    btime 1178342189
     processes 4236
    procs_running 2
    procs_blocked 0
    cat /proc/stat命令是包含内核统计量,提供以下数据:
    CPU 以及CPU0、每行的每个参数意思(以第一行为例)为: 
    user (432661) 从系统启动开始累计到当前时刻,用户态的CPU时间(单位:jiffies) ,不包含 nice值为负进程。1 jiffies=0.01秒 
    nice (13295) 从系统启动开始累计到当前时刻,nice值为负的进程所占用的CPU时间(单位:jiffies) 
    system (86656) 从系统启动开始累计到当前时刻,核心时间(单位:jiffies) 
    idle (422145968) 从系统启动开始累计到当前时刻,除硬盘IO等待时间以外其它等待时间(单位:jiffies) 
    iowait (171474) 从系统启动开始累计到当前时刻,硬盘IO等待时间(单位:jiffies) , 
irq (233) 从系统启动开始累计到当前时刻,硬中断时间(单位:jiffies) 
    softirq (5346) 从系统启动开始累计到当前时刻,软中断时间(单位:jiffies) 
     CPU时间=user+system+nice+idle+iowait+irq+softirq 
    "intr"这行给出中断的信息,第一个为自系统启动以来,发生的所有的中断的次数;然后每个数对应一个特定的中断自系统启动以来所发生的次数。 
    "ctxt"给出了自系统启动以来CPU发生的上下文交换的次数。 
    "btime"给出了从系统启动到现在为止的时间,单位为秒。 
     "processes (total_forks) 自系统启动以来所创建的任务的个数目。 
    "procs_running":当前运行队列的任务的数目。 
    "procs_blocked":当前被阻塞的任务的数目。 

    4 使用xload图形显示系统负载

    如果安装了KDE环境,可以使用xload 显示系统平均负载的柱状图 ,它会定期地更新。xload是Linux一个系统命令,使用方法:
 

     应用实例:

    #xload -scale 1 -update 1 -fg red -hl400 
    上面命令表示使用xload查看系统的负载。每秒更新一次,其尺寸大小为400,前景颜色为红色,背景颜色为蓝。见图-1。

图1 用xload图形显示系统负载

三、 通过phpsysinfo 调用浏览器监控
    由于/proc文件系统非常大,而且系统是动态变化的,所以使用Linux命令比较麻烦,这里我们使用一个工具:phpsysinfo,它是一个支持PHP网页服务器用于侦测主机一些资料的PHP 脚本工具软件,可以提取/proc文件系统中的信息,以图形方式显示出来。另外phpsysinfo支持包括中文在内的20多种语言和许多风格的模板。
    1.系统要求:
    除了要搭建一个基于LAMP(Linux+PHP+APACHE+MYSQL)的网络构架,其它系统要求:软件:它要求内核(Kenerl)至少在2.2以上。KDE 2.0,桌面颜色至少16位增强色。硬件:中央处理器:奔腾II 450 以上 ,内存 64 兆 ,硬盘空间 60兆。安装前的准备工作: phpsysinfo 是用PHP语言写成的。 
    2.软件下载
    #wget http://jaist.dl.sourceforge.net/sourc ... nfo/phpsysinfo-2.3.tar.gz 
    3. 软件安装: 将下载的软件拷贝到/var/www/html/目录下,执行:
    #mv phpsysinfo-2.3.tar.gz /var/www/html/sysinfo
    #tar -zxvf phpsysinfo-2.3.tar.gz 
    #cd sysinfo 
    #cp config.php.new config.php
    4.运行软件:
    启动apache服务 
    #/usr/local/apache2/bin/apachectl start 
    测试http://localhost/sysinfo (见图2)


图2 phpsysinfo的中文工作界面

    phpsysinfo检测分成五个部分:
    (1)主机系统资源:主机名称、IP地址、内核版本、已开机时间、登入人数、系统负载。
    (2)硬件信息:CPU型号、工作频率、快取大小、逻辑操作数、PCI接口、IDE接口、SCSI接口。
    (3)网络负载:网络数据包接收、传送、错误/遗失。
    (4)内存资源情况,包括物理内存、虚拟内存等。
    (5)已挂载分区:硬盘分区名称,使用比例。
     你也可以用它来测试你所租用的虚拟主机的设备及网络状况的品质。


没有评论:

发表评论