Featured image of post [对话之外] 跨境网络为何经常绕路?

[对话之外] 跨境网络为何经常绕路?

从国际出口、BGP 决策到大型骨干网络架构的思考

引言

在中国大陆的网络环境中,跨境访问长期呈现出一种略显矛盾的状态。

一方面,国际出口带宽在持续扩容;另一方面,在晚高峰时段,跨境访问仍然频繁出现连接不稳定、吞吐下降、应用层卡顿等问题。同时,通过 traceroute 等工具观察到的路径,往往表现为明显的绕行,与直觉中的“最短路径”并不一致。

这些现象通常被简单归因于“国际出口不够用”,但如果从更长的时间尺度与更高的网络层级来看,它们更像是大型运营商在跨境网络治理中做出的结构性选择。


一、跨境网络的典型表现

在实际使用中,跨境网络通常呈现出以下特征:

  • 非高峰时段体验相对稳定,高峰时段波动明显;
  • RTT 数值并不异常,但应用层响应明显变慢;
  • traceroute 显示路径跨省、跨区域,甚至出现反直觉的跳转。

这些现象表明,问题并不完全出在单一链路或单一节点上,而是与整体路径选择和承载结构密切相关。


二、BGP 与“绕路”的必然性

1. BGP 并不以性能最优为目标

跨境路径的选择主要由 BGP 决定。
BGP 的设计目标是自治系统之间的可达性和策略表达能力,而非端到端性能最优。

其决策依据主要包括:

  • AS-PATH 长度
  • Local Preference
  • 路由策略与社区属性

RTT、丢包率、抖动等性能指标并不在协议的原生考量范围内。

因此,从协议层面看,路径“绕行”并不构成异常,而是策略约束下的自然结果。


2. 精细策略与自动收敛之间的冲突

在多出口环境中,运营方通常会通过精细路由策略改善路径质量,例如为特定前缀指定出口或设置偏好。

这类策略在路径健康时可以带来更好的体验,但当路径出现性能退化而未完全中断时,BGP 并不会触发重新选路。

结果是系统进入一种状态:

  • 路径仍然被视为可达;
  • 实际性能已明显下降;
  • 自动切换无法发生。

这种“半失效”状态在跨境网络中并不少见。


三、运营商规模与路径风格差异

1. 小规模网络的主动优化

在规模较小的网络中:

  • 出口数量有限;
  • 故障影响范围较小;
  • 策略调整与回滚成本较低。

在这种环境下,通过精细策略尽量拉直路径,是一种常见且可接受的做法。


2. 大规模运营商的风险约束

全国级运营商面对的约束条件则完全不同:

  • 单一策略可能影响大量用户;
  • 同步性失败的代价极高;
  • 外部网络的不确定性被显著放大。

在这种背景下,将大量流量集中到“看起来最优”的路径上,反而会增加系统性风险。

因此,大型运营商通常只在少数关键方向进行深度工程化,而在其余方向上保留路径的自然分散。


四、电信的路径工程化实践

1. 热点方向的工程化承载

在美西、欧洲核心节点、日本、新加坡、香港等方向,具有以下共同特征:

  • 流量规模巨大;
  • 目的地相对稳定;
  • 对整体用户体验影响显著。

这些方向通常被纳入明确的承载体系中,例如固定或半固定路径、MPLS / SR Policy,以及独立的治理与调度域。

在这些区域,传统公网的表现已经接近专线级别。


2. 非热点方向的自然选路

对于流量分散、目的地不稳定、投入产出比低的方向:

  • 不进行深度路径工程;
  • 不编写复杂策略;
  • 交由 BGP 在既定边界内自然选路。

因此,这类路径在可视化工具中往往显得“绕”,但整体系统更加稳健。


五、CN2、公网与统一承载的演进

1. CN2 的角色

CN2 的核心价值并不仅体现在更低的延迟或更高的带宽上,而在于:

  • 更严格的 SLA;
  • 更高优先级的故障处理;
  • 更激进的路径工程手段。

同时,它也是路径治理方法论的重要验证环境。


2. 公网能力的下沉

随着工程经验的成熟,这些方法逐步应用到公网的热点方向,并通过统一的承载域进行治理。

在这一过程中:

  • 公网身份 ASN 仍然对外存在;
  • 实际承载逐步集中到统一的内部体系;
  • 路由身份与物理承载出现分离。

这并不意味着公网等同于高端线路,而是成熟工程能力的自然下沉。


六、骨干网络的黑箱化趋势

随着 MPLS、SR、隧道化承载等技术的广泛应用:

  • 中间节点不再响应 ICMP TTL;
  • 交换节点在逻辑路径中不可见;
  • traceroute 难以反映真实承载结构。

在这种架构下,traceroute 的角色发生转变:

  • 不再用于解释完整路径;
  • 而更适合用于发现异常延迟或丢包信号。

七、跨境网络体验评价方式的变化

在路径逐渐黑箱化的背景下,网络质量的评价标准也随之改变:

  • 稳定性优于峰值速度;
  • 长期 RTT 与丢包分布优于单次测试;
  • 多服务、多目的地的一致性优于单一路径表现。

从结果来看,热点方向体验的改善并非偶然,而是长期治理策略演进的自然体现。


结论

跨境网络路径“经常绕路”并不必然意味着网络能力不足。
对于大规模网络而言,这种现象更多反映的是:

  • 对同步性失败的规避;
  • 对外部不可控因素的克制;
  • 对工程可治理性的优先选择。

从这一角度看,当下的跨境网络形态并非退化,而是进入了一个更加成熟、更加工程化的阶段。

使用 Hugo 构建
主题 StackJimmy 设计