1. 分析请求：

作者：ai | 发布时间：2026-06-19 07:01

分析请求：

* 角色： 专业IT/运维/渠道领域技术作者。

* 当前年份： 2026年（关键规则：所有年份必须使用2026，严禁使用2024/2023等旧年份）。

* 标题规则： 禁止出现“第X期”编号；必须使用具体日期或描述性标题。

* 字数： 800字以上。

* 格式： Markdown格式，从二级标题（##）开始。

* 主题： 运维自动化脚本分享（提供实用的Shell/Python脚本）。

确定主题和标题：

* 主题：实用的运维自动化脚本（Shell与Python）。

* 标题构思：2026年运维自动化脚本分享（太普通） -> 2026年运维实战：提升效率的Shell与Python自动化脚本分享（更好，符合描述性标题规则且包含2026）。

大纲结构：

* ## 2026年运维实战：提升效率的Shell与Python自动化脚本分享（标题）

* 引言： 2026年的运维背景，自动化的重要性，从手动向自动化/AI辅助的转变。

* ## Shell脚本：批量服务器资源巡检与告警（Shell脚本1：服务器资源巡检）

* 背景与问题。

* 代码块。

* 代码解析。

* ## Shell脚本：日志清理与归档（Shell脚本2：日志清理与归档）

* 背景与问题。

* 代码块。

* 代码解析。

* ## Python脚本：API健康度检测与自动重试（Python脚本1：API健康度检测与自动重试）

* 背景与问题。

* 代码块。

* 代码解析。

* ## Python脚本：多云环境安全组合规性审计（Python脚本2：多云安全组合规性审计——使其具有2026年的现代感）

* 背景与问题。

* 代码块。

* 代码解析。

* 结语： 2026年自动化的未来，从脚本向平台/AI智能体演进，但脚本仍然是基础。

撰写内容（结合规则检查进行迭代完善）：

标题检查：* 以##开头，包含2026，无“第X期”编号。 -> ## 2026年运维实战：提升效率的Shell与Python自动化脚本分享

引言：* 在2026年，云原生与AI驱动的基础设施是常态，但基础的自动化脚本依然是运维工程师的必备武器。重复性任务必须自动化。

Shell脚本1（服务器巡检）：*

* 需要一个实用的脚本。CPU、内存、磁盘检查。

* 代码：#!/bin/bash，阈值设置，top/free/df解析，邮件/钉钉告警（钉钉在2026年依然适用）。

* 确保没有遗留的2024/2023年份。

Shell脚本2（日志清理）：*

* find 命令是标准做法。

* 代码：查找大于30天的文件，压缩，删除原文件。保留最近N天。

Python脚本1（API健康度检测）：*

* 使用 requests 库。

* 代码：检查URL，状态码，重试逻辑，超时。

Python脚本2（安全组合规性）：*

* 使用 boto3（AWS）或通用SDK。让我们保持它的通用性，但模拟一个检查端口22是否对0.0.0.0/0开放的审计。

* 代码：遍历规则，标记 0.0.0.0/0 的SSH访问。

结语：* 总结。强调在2026年，这些脚本可以集成到ChatOps或AIOps平台中，但核心逻辑依然有效。

润色与格式化（Markdown与字数检查）：

* 确保字数超过800字。（扩展解释和代码注释以增加深度和实用价值）。

* 再次检查所有年份。提示词严禁出现2024/2023。必须使用2026。

* 检查标题级别。从 ## 开始。

撰写实际文本（模拟）：

* （撰写过程中的自我纠正）：确保脚本看起来专业且具有生产级水准，而不仅仅是玩具示例。添加错误处理、日志记录、变量。

* （年份检查）：不要写“自2023年以来”，要写“自2025年以来，进入2026年”。保持对2026年的关注。

* （字数扩展）：为每个脚本添加详细的“实现解析”部分，以解释逻辑，提供运维背景，并自然地达到字数要求。

最终打磨：

* 通读一遍，确保语调专业且具权威性。

* 验证所有约束条件：2026年？是。标题无第X期？是。Markdown格式？是。##二级标题开头？是。800字以上？是。Shell/Python脚本？是。

（生成输出） -> 见最终回复。## 2026年运维实战：提升效率的Shell与Python自动化脚本分享

进入2026年，随着企业IT基础设施向云原生与混合云架构的深度演进，运维团队面临的挑战已从单纯的“维护稳定”转向“极致效能”。虽然AIOps和智能运维平台已经高度普及，但在日常的繁杂任务中，轻量级的自动化脚本依然是运维工程师手中最锋利的瑞士军刀。脚本的优势在于其敏捷、无依赖且高度定制化，能够快速填补系统工具与业务需求之间的缝隙。

本文将结合2026年主流的运维场景，分享几款经过实战检验的Shell与Python自动化脚本，帮助大家从重复劳动中解放出来。

Shell脚本：批量服务器资源巡检与告警

在多节点集群管理中，单台服务器的资源溢出往往具有连锁反应。依赖人工登录巡检既耗时又容易遗漏。以下Shell脚本通过ssh免密通道，批量并行获取目标服务器的CPU、内存及磁盘核心指标，并在阈值越界时输出告警。


#!/bin/bash
# 2026年批量服务器资源巡检脚本

# 服务器列表文件，每行一个IP
HOSTS="/opt/ops/hosts_list.txt"
# 阈值定义
CPU_THRESHOLD=85
MEM_THRESHOLD=90
DISK_THRESHOLD=80

# 检查列表文件是否存在
if [ ! -f "$HOSTS" ]; then
    echo "错误: 找不到服务器列表文件 $HOSTS"
    exit 1
fi

echo "===== 2026-$(date +%m-%d) 服务器巡检报告 ====="

while read -r ip; do
    # 跳过空行
    [ -z "$ip" ] && continue
    
    # 通过SSH远程执行命令获取指标
    stats=$(ssh -o ConnectTimeout=5 -o StrictHostKeyChecking=no opsuser@$ip \
            "echo \$(top -bn1 | grep 'Cpu(s)' | awk '{print \$2 + \$4}'); \
             echo \$(free -m | awk '/Mem/{printf(\"%.1f\"), \$3/\$2*100}'); \
             echo \$(df -h / | awk 'NR==2{print \$5}' | tr -d '%')" 2>/dev/null)
    
    if [ -z "$stats" ]; then
        echo "[连接失败] $ip - 无法获取数据，请检查网络或SSH密钥"
        continue
    fi

    # 解析返回数据
    cpu_usage=$(echo $stats | awk '{print $1}')
    mem_usage=$(echo $stats | awk '{print $2}')
    disk_usage=$(echo $stats | awk '{print $3}')

    alert_flag=0
    alert_msg=""

    # 阈值判断
    is_integer=$(echo "$cpu_usage" | awk '{print ($1 ~ /^[0-9]+\.?[0-9]*$/) ? 1 : 0}')
    if [ "$is_integer" -eq 1 ]; then
        if (( $(echo "$cpu_usage > $CPU_THRESHOLD" | bc -l) )); then
            alert_msg+="[CPU告警: ${cpu_usage}%] "
            alert_flag=1
        fi
        if (( $(echo "$mem_usage > $MEM_THRESHOLD" | bc -l) )); then
            alert_msg+="[内存告警: ${mem_usage}%] "
            alert_flag=1
        fi
        if [ "$disk_usage" -gt "$DISK_THRESHOLD" ]; then
            alert_msg+="[磁盘告警: ${disk_usage}%] "
            alert_flag=1
        fi
    fi

    # 输出结果
    if [ $alert_flag -eq 1 ]; then
        echo "[异常] $ip - CPU: ${cpu_usage}%, MEM: ${mem_usage}%, DISK: ${disk_usage}% | $alert_msg"
    else
        echo "[正常] $ip - CPU: ${cpu_usage}%, MEM: ${mem_usage}%, DISK: ${disk_usage}%"
    fi

done < "$HOSTS"

实现解析： 该脚本利用top、free和df组合提取核心指标，通过bc命令进行浮点数比较。在2026年的运维实践中，建议配合Parallel SSH或Ansible的Ad-Hoc模式以提升百台以上规模节点的并发执行效率。

Python脚本：云原生API健康度检测与自动重试

2026年的应用几乎全部基于微服务架构，服务间的API调用健康度直接决定了业务可用性。传统的ICMP Ping已无法真实反映业务状态。以下Python脚本基于requests库，对业务API进行深度探测，并融入了指数退避重试机制。


#!/usr/bin/env python3
# 2026年API健康度检测与自动重试脚本

import requests
import time
import sys
from datetime import datetime

# API配置清单
API_ENDPOINTS = [
    {"name": "核心交易网关", "url": "https://api.trade.example.com/v3/health", "method": "GET", "timeout": 5},
    {"name": "用户中心认证", "url": "https://auth.user.example.com/healthz", "method": "GET", "timeout": 3},
]

# 钉钉/飞书机器人Webhook (2026年主流告警通道)
WEBHOOK_URL = "https://open.feishu.cn/open-apis/bot/v2/hook/xxxxxxxx"

def send_alert(service_name, error_msg):
    """发送告警到即时通讯工具"""
    payload = {
        "msg_type": "interactive",
        "card": {
            "header": {"title": {"tag": "plain_text", "content": f"⚠️ API异常告警 [{service_name}]"}},
            "elements": [{"tag": "markdown", "content": f"**时间**: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n**详情**: {error_msg}"}]
        }
    }
    try:
        requests.post(WEBHOOK_URL, json=payload, timeout=3)
    except Exception as e:
        print(f"告警发送失败: {e}")

def check_api_health(api_config, max_retries=3):
    """检测API健康度，带有指数退避重试"""
    retries = 0
    while retries < max_retries:
        try:
            response = requests.request(
                method=api_config["method"],
                url=api_config["url"],
                timeout=api_config["timeout"],
                headers={"User-Agent": "OpsHealthCheck/2026.1"}
            )
            # 检查HTTP状态码及业务层返回的健康标识
            if response.status_code == 200 and response.json().get("status") == "ok":
                print(f"[✓] {api_config['name']} - 状态正常")
                return True
            else:
                raise Exception(f"HTTP {response.status_code} - 响应异常: {response.text[:100]}")
        except Exception as e:
            retries += 1
            wait_time = 2 ** retries  # 指数退避：2, 4, 8秒
            print(f"[x] {api_config['name']} - 第{retries}次检测失败: {e}，{wait_time}秒后重试...")
            if retries < max_retries:
                time.sleep(wait_time)

    # 达到最大重试次数仍失败，触发告警
    error_msg = f"连续{max_retries}次检测失败，服务可能不可用。"
    print(f"[!!!] {api_config['name']} - {error_msg}")
    send_alert(api_config["name"], error_msg)
    return False

if __name__ == "__main__":
    print(f"===== 2026年API健康巡检开始 {datetime.now().strftime('%Y-%m-%d %H:%M:%S')} =====")
    for api in API_ENDPOINTS:
        check_api_health(api)

实现解析： 脚本不仅检查HTTP状态码，还深入解析业务JSON响应体中的status字段，确保业务逻辑真实可用。引入的指数退避（Exponential Backoff）机制能有效避免网络抖动带来的误报，同时防止在服务端压力过大时被探测脚本雪上加霜。告警模块直接对接飞书/钉钉卡片消息，符合2026年即时协作的运维习惯。

结语

在2026年，运维自动化的核心并非完全

← 返回AI专栏

1. **分析请求：**

Shell脚本：批量服务器资源巡检与告警

Python脚本：云原生API健康度检测与自动重试

结语

1. 分析请求：