弹性扩缩容机制

算力共享模式

算力共享模式下,系统默认提供弹性扩缩容机制,后端调度系统会根据APP的请求运行监控(QPS、延时等)情况动态调整APP所使用的服务节点数量。系统会定时(分钟级别)收集APP的业务指标(QPS、延时)并判断是否需要进行集群自动扩容和缩容,并按照判定结果进行扩容或缩容操作。一般情况下系统可以应对APP的正常业务变化,如果遇到可预知的业务高峰(如促销活动等)请提前告知UAI Inference的运营人员。

算力独占模式

算力独占模式下,系统允许用户设定弹性扩缩容机制,目前弹性扩容机制允许用户设定如下指标:

  • 业务指标: 弹性伸缩依据的指标,目前支持平均QPS(总QPS/节点数)
  • 最大节点数:服务扩容的节点上限。
  • 最小节点数:服务缩容的节点下限。
  • 扩容阈值: 当平均QPS大于该值时,并持续一段时间,开始扩容。
  • 缩容阈值: 当平均QPS小于该值时,并持续一段时间,开始缩容。


系统会依据用户的设定进行扩容缩容操作,系统会定时(<1分钟)收集指定的业务指标(如QPS),并对扩容阈值缩容阈值进行判定,如果达到指标达到扩容阈值,系统会进行扩容,扩容策略为一次性补充足够的计算节点以满足业务的需求(不会超过最大节点书),缩容测策略为逐渐减少计算节点的数量直至系统判定不需要继续缩容。具体配置方式请参见弹性伸缩规则设置

注:在扩缩容指标判定过程中,系统采用的指标使用如下公式计算(指定时间内业务指标的平均值):