您当前的位置:首页 > 电脑百科 > 网络技术 > 网络技术

网络故障的隐形元凶:MTU配置你了解吗?

时间:2023-11-28 12:31:56  来源:今日头条  作者:技术守护者

背景

我司使用的是亚马逊厂商的云服务,厂商的消息队列产品我们并没有用,我们选择自建,自建的好处是更灵活,定制性更广。公司内部有多套Kafka集群,100+broker节点,针对kafka我司也有比较完善的自动化运维管理体系,最近出现过一次业务连接kafka集群频繁超时的情况,在这里记录下处理过程,加深对网络知识的理解。

问题现象

业务收到服务可用性下降报警,分析日志发现是连接亚马逊kafka集群有频繁超时,超时日志如下:

网络故障的隐形元凶:MTU配置你了解吗?

基本分析

  • 影响因素:多台主机同时报警,排查单台主机问题。
  • 集群检查:立即确认kafka集群以及涉及到topic健康状态。集群状态正常,收发消息正常,压力负载正常;topic读写正常。
  • 变更操作:近期未做关于kafka的任何变更操作,排查变更影响。
  • 确定影响范围:确认其他业务是否有超时情况。大部分业务反馈未出现超时情况,问题规模限定在当前业务。

定位

网络问题从表面看不到细节,只能通过抓包分析,同时抓取了客户端和服务端的数据包,抓包命令如下:

# 客户端(抓所有和kafka节点通信的网络数据包)
nohup tcpdump  port 9092 -w kafka.pcap & 
# 服务端(抓所有和客户端主机通信的数据包)
nohup tcpdump host 10.66.67.166 -s0 -w 10.66.67.166.pcap &

说明: 开启抓包后,在客户端主机过滤超时日志,出现超时后即可停止抓包操作。

数据包分析

  • 错误日志:
  • 2023-05-24 20:46:29.947 kafka client/metadata got error from broker while fetching metadata: read tcp 10.66.67.166:37272->10.68.0.151:9092: i/o timeout
  • 客户端报文

网络故障的隐形元凶:MTU配置你了解吗?

  • 服务端报文

网络故障的隐形元凶:MTU配置你了解吗?

  • 报文分析
  • 客户端报文:
  • 在序号为793以上的报文都收到了服务端的响应,而且可以看到使用的是kafka协议进行了消息的投递(kafka produce respone)。
  • 在序号为794的时候,客户端发送了7个长度是8514的tcp报文,未看到服务端的回应。
  • 在序号是803,804的时候,客户端又发送了2个长度的tcp报文。
  • 从序号是807开始,发现客户端重传了之前发送的所有长度是8514的tcp报文。(丢包了。客户端未收到服务端的响应所以重传了)。
  • 服务端报文。
  • 从服务端看,客户端前面的几个tcp报文都被服务端正常处理。(前面的报文长度都很小,小于1000)。
  • 客户端发送的9个长度为8514的包,服务端根本没收到。
  • 服务端等待了60s后,关闭了tcp连接。(服务端配置的空闲连接时间就是1min,符合预期)。

丢包问题分析

  • 被丢弃的数据报长度都比较大,是否是报长度过大的问题?
  • 查询机器的网卡mtu配置,发现是9001(TCP/IP 巨型帧),随机使用ping命令指定size进行测试。
  • TCP 最大段大小(Max Segment Size,MSS)是会根据网卡设置的mtu值决定,即使设置的是9001,测试最大MSS最大支持到8468,超过后就直接丢了。

网络故障的隐形元凶:MTU配置你了解吗?

  • 对比测试规律总结
  • 腾讯、阿里主机(mtu=1500):因为网卡配置的都是1500,所以不存在报过大丢弃的情况。
  • 亚马逊主机(mtu=9001):包大于8468后,就会直接丢弃(问题产生在新老账户通信上)。

刨根问底

其他亚马逊业务网卡mtu配置配置也是9001,为啥没问题?

  • 第一时间和出问题的业务方确认业务是否有调整或者变更,他们说明了服务没有调整,他们在亚马逊有开了一个新账户部署了服务,目前业务访问是跨账户调用。

联系厂商确认跨账户网络链路。

  • mtu 问题反馈给厂商技术支持人员,给到的结论是:新老账户网络连通设备(TGC),最大的mtu上限是8500,所以我们通过网关设备的包就丢弃了。

网络故障的隐形元凶:MTU配置你了解吗?

网络故障的隐形元凶:MTU配置你了解吗?

解放方案

  • 调整主机mtu值,已匹配厂商的mtu限制。
# 临时生效
ip link set dev eth0 mtu 1500
永久生效
vim  /etc/sysconfig.NETwork-scripts/ifcfg-eth0   增加如下内容
MTU="9000"
# service network restart


Tags:MTU   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
网络故障的隐形元凶:MTU配置你了解吗?
背景我司使用的是亚马逊厂商的云服务,厂商的消息队列产品我们并没有用,我们选择自建,自建的好处是更灵活,定制性更广。公司内部有多套Kafka集群,100+broker节点,针对kafka我司也有...【详细内容】
2023-11-28  Search: MTU  点击:(186)  评论:(0)  加入收藏
▌简易百科推荐
手机就可以修改WiFi密码,进行网络提速,还能防止别人蹭网
随着网络的普及和使用频率的增加,很多人可能遇到了一些网络管理上的问题,比如忘记了WiFi密码、网络速度缓慢、或者发现有不明设备在家中蹭网。相信朋友们也曾遇到过吧?但是,你知...【详细内容】
2024-04-03  老毛桃    Tags:WiFi密码   点击:(5)  评论:(0)  加入收藏
手机WiFi信号满格却接收消息延迟?这里有妙招帮你解决!
在现代社会,手机已经成为了我们生活中不可或缺的一部分。无论是工作、学习还是娱乐,手机都扮演着重要的角色。然而,有时我们会遇到一些令人烦恼的问题,比如明明手机WiFi信号满格...【详细内容】
2024-04-03  蔡前进    Tags:手机WiFi   点击:(4)  评论:(0)  加入收藏
SASE技术应用落地的五个关键趋势
在Gartner 最新发布的《2023网络技术成熟度曲线》报告中认为,SASE技术已经开始走出最初的技术炒作期,将逐步迈向新一轮的实用落地阶段。在Gartner发布的《Hype Cycle for Ente...【详细内容】
2024-04-01    安全牛  Tags:SASE   点击:(9)  评论:(0)  加入收藏
提示“该网站安全证书存在问题,连接可能不安全”如何解决
在你输入网址并浏览网页时,如果你的浏览器弹出一个警告,提示“网站的安全证书存在问题”,或是显示一个红色的锁标志,这些都是网站不安全的警示。这些提示通常是由HTTPS协议中的S...【详细内容】
2024-03-18  倏然间    Tags:网站安全证书   点击:(8)  评论:(0)  加入收藏
如何有效排除CAN总线错误
控制器局域网(CAN)控制器局域网(CAN)是现代车辆中电子元件无缝运行的基础。在远程信息处理领域,CAN总线系统的效率至关重要,其能够实现支撑当今汽车技术的复杂功能。然而,CAN总...【详细内容】
2024-02-20    千家网  Tags:CAN   点击:(46)  评论:(0)  加入收藏
网络连接受限或无连接怎么办?这里提供几个修复办法
可能错误提示 连接受限或无连接:连接具有有限的连接或无连接。你可能无法访问Internet或某些网络资源。 连接受限。排除和解决“连接受限或无连接”错误此错误可能由计算机上...【详细内容】
2024-02-06  驾驭信息纵横科技    Tags:网络连接受限   点击:(43)  评论:(0)  加入收藏
如何将Mac连接到以太网?这里有详细步骤
在Wi-Fi成为最流行、最简单的互联网连接方式之前,每台Mac和电脑都使用以太网电缆连接。这是Mac可用端口的标准功能。如何将Mac连接到以太网如果你的Mac有以太网端口,则需要以...【详细内容】
2024-02-03  驾驭信息纵横科技    Tags:Mac   点击:(66)  评论:(0)  加入收藏
简易百科之什么是端口映射
端口映射,也称为端口转发,是一种网络通信中的技术手段,通过将内网中的一个端口上的数据流量转发到另一个端口,使得外部网络能够访问到内部网络中的特定服务。在实现上,端口映射通...【详细内容】
2024-01-26    简易百科  Tags:端口映射   点击:(153)  评论:(0)  加入收藏
ip因频繁登陆已被禁止访问 无法显示图片 怎么办
首先,我们要明白,部分网站为了有效遏制数据爬取和非法攻击,保证访问速度和普通用户查询,会在系统中增加网络安全设备,加强安全防护机制,并提前设置安全访问规则。因此,一旦用户的行...【详细内容】
2024-01-20  何福意思    Tags:ip   点击:(63)  评论:(0)  加入收藏
电脑连上wifi却上不了网怎么办
当电脑连接上 WiFi 却无法上网时,可能会让人感到困惑和沮丧。这个问题通常会有多种可能的原因,包括网络配置问题、路由器故障、无线适配器问题等。在面对这个问题时,可以尝试以...【详细内容】
2024-01-16  编程资料站    Tags:wifi   点击:(68)  评论:(0)  加入收藏
相关文章
    无相关信息
站内最新
站内热门
站内头条