首先通过基础 监控 收集延迟与丢包数据:持续性使用 ping、mtr 或者 smokeping 对目标 IP 做历史采样,确认是否为瞬时抖动还是持续性问题。若延迟不稳定或有丢包,记录发生时间、持续时长及影响范围(单个实例还是多个实例)。
常用命令:ping -c 100 <目标IP>;mtr -rwzbc100 <目标IP>。对 TCP 层可用 tcptraceroute 或者使用 curl --connect-timeout 来判断三次握手耗时。
若丢包仅在 ICMP 上表现,但 TCP 连接稳定,需区分是回程路由过滤还是真实网络问题;采样时同步记录业务端感知(如网页加载、SSH 抖动)。
使用 traceroute/mtr 定位跳点,查看在哪一跳出现高延迟或丢包。比对不同时间点和不同出发地(例如本地网络、另一台大陆/香港机房)以判断是本地链路、上游骨干还是目标侧问题。
traceroute -n <目标IP>;mtr -rwzbc100 <目标IP>;若支持,使用 bgp looking glass(运营商提供)查看 BGP 路由是否异常。
对于 cn2vps,香港直连 常见是路径经过 CN2 骨干或联通/电信前缀变动,若确定是对端或上游问题,应提供完整的 mtr/traceroute 输出和时间戳给服务商协助排查。
先通过 监控 查看 CPU、内存、磁盘 IO 与网络吞吐,确认是否为系统资源紧张导致的 SSH 服务卡顿。随后查看 /var/log/auth.log 或 /var/log/secure,捕获认证失败或 PAM 报错信息。
查看资源:top/htop、iotop、sar;查看连接:ss -tunap | grep ssh;调试 SSH:ssh -vvv user@host 获取握手过程日志。
若为网络波动引起的断开,可在客户端启用 ServerAliveInterval/KeepAlive;若为认证瓶颈(如大量暴力登录),应加固防护(fail2ban、改端口、密钥登录、限速)并在监控中加入异常登录告警。
通过监控平台(如 Prometheus + Grafana、Zabbix)查看历史趋势,判断是突发峰值还是慢慢攀升。线上通过 top、ps、iotop 找到占用进程,结合 strace/lsof 分析进程行为与文件句柄。
top -b -n1;ps aux --sort=-%cpu | head;iotop -o;strace -p
短期缓解可重启耗资源的服务或扩容实例,长期应优化应用(缓存、数据库索引、连接池)并配置横向/纵向扩容策略,同时在 运维 工单中上报给 cn2vps 提供商以排除宿主机问题。
监控覆盖三层:主机层(CPU/内存/磁盘/IO)、网络层(延迟/丢包/带宽)、应用层(响应时间/错误率/队列长度)。设定阈值告警和突发检测(短时抖动/长期趋势),并集成告警渠道(邮件、短信、钉钉/Slack、PagerDuty)。
部署监控导出器:node_exporter、blackbox_exporter(用于 ping/http 检测);使用 prometheus.yml 配置 scrape 目标并在 alertmanager 中编写告警规则。
告警要分级(P0/P1/P2),并在告警中附上必要的诊断信息:最近 15 分钟的 mtr/traceroute、top 输出、相关日志片段及时间戳,便于跨团队快速定位并在需要时提交给 香港直连 cn2vps 服务商。