linux 硬件故障日志_对Linux中的硬件问题进行故障排除

linux查看硬件故障 Linux服务器在许多不同类型的基础架构中运行关键任务业务应用程序，包括物理机，虚拟化，私有云，公共云和混合云。对于Linux系统管理员来说，了解如何管理Linux硬件基础结构（包括与网络，存储，Linux容器以及Linux服务器上的多个工具相关的软件定义的功能）非常重要。在Linux上进行故障排除和解决与硬件相关的问题可能需要一些时间。即使是经验丰富的系统管...

cumo3681

2109人浏览 · 2020-07-06 15:22:49

cumo3681 · 2020-07-06 15:22:49 发布

linux 硬件故障日志

Linux服务器在许多不同类型的基础架构中运行关键任务业务应用程序，包括物理机，虚拟化，私有云，公共云和混合云。对于Linux系统管理员来说，了解如何管理Linux硬件基础结构（包括与网络，存储，Linux容器以及Linux服务器上的多个工具相关的软件定义的功能）非常重要。

在Linux上进行故障排除和解决与硬件相关的问题可能需要一些时间。即使是经验丰富的系统管理员，有时也会花费数小时来解决神秘的硬件和软件差异。

以下提示可以使您更快更轻松地对Linux中的硬件进行故障排除。许多不同的事情都可能导致Linux硬件出现问题。在开始诊断它们之前，了解最常见的问题以及最有可能找到它们的地方很明智。

快速诊断设备，模块和驱动程序

故障排除的第一步通常是显示Linux服务器上安装的硬件的列表。可以得到与使用LS的硬件的详细信息等命令lspci的 ， lsblk ， lscpu ，和使用lsscsi 。例如，以下是lsblk命令的输出：


   
   
    
    
     
     # lsblk 
     
     

NAME    MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
     
     

xvda    202:0    0  50G  0 disk 
     
     

├─xvda1 202:1    0   1M  0 part 
     
     

└─xvda2 202:2    0  50G  0 part /
     
     

xvdb    202:16   0  20G  0 disk 
     
     

└─xvdb1 202:17   0  20G  0 part

如果ls命令没有显示任何错误，请使用init进程（例如systemd ）查看Linux服务器的工作方式。 systemd是用于引导用户空间并控制多个系统进程的最流行的初始化过程。例如，这是systemctl status命令的输出：


   
   
    
    
     
     # systemctl status 
     
     

● bastion.f347.internal
     
     

    State: running
     
     

     Jobs: 0 queued
     
     

   Failed: 0 units
     
     

    Since: Wed 2018-11-28 01:29:05 UTC; 2 days ago
     
     

   CGroup: /
     
     

           ├─1 /usr/lib/systemd/systemd --switched-root --system --deserialize 21
     
     

           ├─kubepods.slice
     
     

           │ ├─kubepods-pod3881728a_f2af_11e8_af77_06af52f87498.slice
     
     

           │ │ ├─docker-88b27385f4bae77bba834fbd60a61d19026bae13d18eb147783ae27819c34967.scope
     
     

           │ │ │ └─23860 /opt/bridge/bin/bridge --public-dir=/opt/bridge/static --config=/var/console-config/console-c
     
     

           │ │ └─docker-a4433f0d523c7e5bc772ee4db1861e4fa56c4e63a2d48f6bc831458c2ce9fd2d.scope
     
     

           │ │   └─23639 /usr/bin/pod
     
     

....

挖掘多个日志

Dmesg允许您找出内核最新消息中的错误和警告。例如，这是dmesg |的输出。更多命令：


   
   
    
    
     
     # dmesg | more 
     
     

....
     
     

[ 1539.027419] IPv6: ADDRCONF(NETDEV_UP): eth0: link is not ready
     
     

[ 1539.042726] IPv6: ADDRCONF(NETDEV_UP): veth61f37018: link is not ready
     
     

[ 1539.048706] IPv6: ADDRCONF(NETDEV_CHANGE): veth61f37018: link becomes ready
     
     

[ 1539.055034] IPv6: ADDRCONF(NETDEV_CHANGE): eth0: link becomes ready
     
     

[ 1539.098550] device veth61f37018 entered promiscuous mode
     
     

[ 1541.450207] device veth61f37018 left promiscuous mode
     
     

[ 1542.493266] SELinux: mount invalid.  Same superblock, different security settings for (dev mqueue, type mqueue)
     
     

[ 9965.292788] SELinux: mount invalid.  Same superblock, different security settings for (dev mqueue, type mqueue)
     
     

[ 9965.449401] IPv6: ADDRCONF(NETDEV_UP): eth0: link is not ready
     
     

[ 9965.462738] IPv6: ADDRCONF(NETDEV_UP): vetheacc333c: link is not ready
     
     

[ 9965.468942] IPv6: ADDRCONF(NETDEV_CHANGE): vetheacc333c: link becomes ready
     
     

....

您还可以在/ var / log / messages文件中查看所有Linux系统日志，在该文件中您可以找到与特定问题相关的错误。在对硬件进行修改（例如安装额外的磁盘或添加以太网网络接口）时，值得通过tail命令实时监视消息。例如，这是tail -f / var / log / messages命令的输出：


   
   
    
    
     
     # tail -f /var/log/messages
     
     

Dec  1 13:20:33 bastion dnsmasq[30201]: using nameserver 127.0.0.1#53 for domain in-addr.arpa
     
     

Dec  1 13:20:33 bastion dnsmasq[30201]: using nameserver 127.0.0.1#53 for domain cluster.local
     
     

Dec  1 13:21:03 bastion dnsmasq[30201]: setting upstream servers from DBus
     
     

Dec  1 13:21:03 bastion dnsmasq[30201]: using nameserver 192.199.0.2#53
     
     

Dec  1 13:21:03 bastion dnsmasq[30201]: using nameserver 127.0.0.1#53 for domain in-addr.arpa
     
     

Dec  1 13:21:03 bastion dnsmasq[30201]: using nameserver 127.0.0.1#53 for domain cluster.local
     
     

Dec  1 13:21:33 bastion dnsmasq[30201]: setting upstream servers from DBus
     
     

Dec  1 13:21:33 bastion dnsmasq[30201]: using nameserver 192.199.0.2#53
     
     

Dec  1 13:21:33 bastion dnsmasq[30201]: using nameserver 127.0.0.1#53 for domain in-addr.arpa
     
     

Dec  1 13:21:33 bastion dnsmasq[30201]: using nameserver 127.0.0.1#53 for domain cluster.local

分析网络功能

您可能有成千上万的云原生应用程序在复杂的网络环境中为业务服务提供服务。其中可能包括虚拟化，多重云和混合云。这意味着，作为故障排除的一部分，您应该分析网络连接是否正常工作。找出Linux服务器中网络功能的有用命令包括ip addr ， traceroute ， nslookup ， dig和ping等。例如，这是ip addr show命令的输出：


   
   
    
    
     
     # ip addr show
     
     

1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
     
     

    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
     
     

    inet 127.0.0.1/8 scope host lo
     
     

       valid_lft forever preferred_lft forever
     
     

    inet6 ::1/128 scope host 
     
     

       valid_lft forever preferred_lft forever
     
     

2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 9001 qdisc mq state UP group default qlen 1000
     
     

    link/ether 06:af:52:f8:74:98 brd ff:ff:ff:ff:ff:ff
     
     

    inet 192.199.0.169/24 brd 192.199.0.255 scope global noprefixroute dynamic eth0
     
     

       valid_lft 3096sec preferred_lft 3096sec
     
     

    inet6 fe80::4af:52ff:fef8:7498/64 scope link 
     
     

       valid_lft forever preferred_lft forever
     
     

3: docker0: <NO-CARRIER,BROADCAST,MULTICAST,UP> mtu 1500 qdisc noqueue state DOWN group default 
     
     

    link/ether 02:42:67:fb:1a:a2 brd ff:ff:ff:ff:ff:ff
     
     

    inet 172.17.0.1/16 scope global docker0
     
     

       valid_lft forever preferred_lft forever
     
     

    inet6 fe80::42:67ff:fefb:1aa2/64 scope link 
     
     

       valid_lft forever preferred_lft forever
     
     

....