计费方式
智能钛弹性模型服务 TI-EMS 支持将模型服务部署在公共资源组和专用资源组。资源组使用和管理方式请详见操作指南 资源组管理。
下表展示了不同资源组的计费方式:
资源组类型 | 计费模式 | 计费说明 |
---|
公共资源组 | 按量计费 | 公共资源组提供公共的大规模计算集群,根据用户服务配置按需分配使用。按资源规格、使用时长及实例数计费。 |
专用资源组 | 包年包月和按量计费 | 提供独享的计算资源,可用于模型部署。专用资源组不与其他用户共享,更加高效。购买资源节点后即开始计费,目前支持包年包月和按量计费两种模式。使用专用资源组部署上线服务,不再另行收费。 |
公共资源组
计费公式
使用公共资源组部署服务的费用是按照模型服务运行所占用公共资源的时长来计算的。具体计算公式为:
单个模型服务费用 = 模型服务单实例资源配置单价 * 实例数量 * 使用时长
模型一旦处于部署并处于运行状态即开始收费,请及时关闭无需运行的模型服务。
单次模型服务的收费起点为服务分配到资源并且状态处于运行中,计费终点为服务占用资源释放,服务状态为已停止。
若服务在运行过程中实例数发生变化,则对应的新资源使用时长从实例扩容成功时刻开始计算。服务缩容后,被释放的实例资源在释放成功后停止计费,服务所占用的剩余资源则继续计费。
定价说明
公共资源组按照最小部署单元 Quota 计费,其中 CPU Quota 和 GPU Quota 定价说明如下:
资源类型 | 1Quota资源详情 | 单价 | 区域 |
---|
CPU 服务 | 1核+2G内存 | 0.3元/Quota/小时 | 北京、上海、广州 |
CPU 服务 | 1核+4G内存 | 0.4元/Quota/小时 | 北京、上海、广州 |
GPU 服务 | 1核+5G内存+0.25P4卡 | 2元/Quota/小时 | 北京、上海、广州 |
计费示例
用户在上海部署了1个 CPU 模型服务,初始运行1个实例,实例占用资源为2核+4GB内存(2Quota),并且用户设置了实例自动伸缩策略,策略所指定的实例数量范围为1-2个。该服务上午10:00完成服务部署并进入运行中状态,上午12:00服务因触发扩容条件完成扩容,实例数量扩展为2个,服务实际占用资源为4核+8GB内存(4Quota),下午2:00由于用户手动停止服务,服务状态变为已停止。上述案例用户使用产生的费用为:
部署资源数量 * 部署资源单价 * 使用时长 = 2(Quota) * 0.3(元) * 2(h) + 4(Quota) * 0.4(元) * 2(h) = 4.4 元
专用资源组
计费公式
专用资源组包含若干节点(TI-EMS 的专用资源组节点类型详见 定价说明),每个节点拥有不同规格的硬件配置,提供不同计算能力。专用资源组节点购买支持包年包月付费和按量付费,两种计费方式的具体计算公式如下:
包年包月总体费用 = 单节点费用 * 节点数量 * 预付费时长。
按量计费根据使用时长不同,共分为三个阶梯,总体费用 = 每个阶梯用量的累加总价。
使用时长 | 阶梯价格 |
---|
0小时 < 时长 < = 96小时 | 按量计费第一阶梯价格 |
96小时 < 时长 < = 360小时 | 按量计费第二阶梯价格 |
时长 > 360小时 | 按量计费第三阶梯价格 |
注意:
目前仅开放了北京、上海、广州地区的机器。
预付费专用资源组可选节点和相应定价如下:
节点规格 | CPU(核) | 内存(G) | GPU(卡) | 预付费(元/个/月) |
---|
24核48G | 24 | 48 | 0 | 2403 |
24核96G | 24 | 96 | 0 | 3595 |
32核64G | 32 | 64 | 0 | 3198 |
32核128G | 32 | 128 | 0 | 4788 |
4核20G1P4 | 4 | 20 | 1 * Tesla P4 | 2724 |
8核32G1T4 | 8 | 32 | 1 * NVIDIA T4 | 3000 |
20核80G1T4 | 20 | 80 | 1 * NVIDIA T4 | 4800 |
32核128G1T4 | 32 | 128 | 1 * NVIDIA T4 | 6600 |
40核160G2T4 | 40 | 160 | 2 * NIVIDIA T4 | 9600 |
36核160G4V100 | 36 | 160 | 4 * Tesla V100 | 25200 |
后付费专用资源组可选节点和相应定价如下:
节点规格 |
|
|
|
|
|
|
---|
CPU (核) | 内存 (G) | GPU (卡) | 后付费 (元/个/小时) |
---|
使用时长 0小时-96小时(含) | 使用时长 96小时-360小时(含) | 使用时长 360小时以上 |
---|
8核16G | 8 | 16 | 0 | 3.3 | 1.8 | 1.3 |
8核32G | 8 | 32 | 0 | 4.8 | 2.5 | 1.8 |
16核32G | 16 | 32 | 0 | 6.3 | 3.3 | 2.3 |
16核64G | 16 | 64 | 0 | 9.4 | 4.8 | 3.3 |
24核48G | 24 | 48 | 0 | 9.5 | 4.9 | 3.5 |
24核96G | 24 | 96 | 0 | 14.1 | 7.2 | 5 |
32核64G | 32 | 64 | 0 | 12.7 | 6.6 | 4.6 |
32核128G | 32 | 128 | 0 | 18.8 | 9.6 | 6.7 |
64核128G | 64 | 128 | 0 | 25.2 | 12.9 | 9 |
64核256G | 64 | 256 | 0 | 37.4 | 19 | 13.2 |
4核20G1P4 | 4 | 20 | 1 * Tesla P4 | 8.4 | 4.3 | 2.9 |
8核40G2P4 | 8 | 40 | 1 * Tesla P4 | 16.8 | 8.5 | 5.8 |
8核32G1T4 | 8 | 32 | 1 * NVIDIA T4 | 10.6 | 5.4 | 3.7 |
20核80G1T4 | 20 | 80 | 1 * NVIDIA T4 | 17 | 8.7 | 6 |
32核128G1T4 | 32 | 128 | 1 * NVIDIA T4 | 23.4 | 11.9 | 8.2
|




智能钛弹性模型服务(Tencent Intelligence Elastic Model Service,TI-EMS)是具备虚拟化异构算力和弹性扩缩容能力的在线推理平台,能够帮助客户解决模型部署复杂、资源浪费、手工扩展资源效率低下的问题。客户通过使用 TI-EMS 可以实现模型一键部署,自动调整弹性计算资源。同时,智能钛弹性模型服务具备多模型支持、版本管理和灰度升级等丰富完善的功能,其内置的 CPU/GPU 推理加速镜像为客户提供高性能、高性价比的推理服务。
异构算力虚拟化
CPU、GPU 算力虚拟化,一键部署不同类型的机器学习模型和深度学习模型,为用户提供最佳推理服务。
自动弹性扩缩容
您可以选择手动或自动调整弹性实例扩展策略,TI-EMS 会根据业务负载情况,动态、实时、自动管理实例数量,帮助您以最合适的实例数量应对业务情况,为您免去人工部署负担。
模型服务 QoS 保障
TI-EMS 可以帮助您及时发掘线上模型服务的瓶颈,并提供可靠的扩展策略,从而保障您的线上服务正常运行。
高性价比
TI-EMS 可以为您提供小至0.25卡级粒度的算力,通过细粒度算力分配,让您随时随地享受高性价比服务体验。
优化加速
TI-EMS 支持模型和框架的优化加速,提升模型服务运行效率,为您提供优质的推理性能。
功能完善
TI-EMS 提供丰富的多模型支持、版本管理和灰度升级等使用功能,为您的各类业务保驾护航。
实时翻译
实时翻译场景下,线上业务需要应对可能的实时高请求量,TI-EMS 可快速响应并针对性地弹性扩容、高吞吐、低延迟、保障高 QPS 时线上业务平稳运行。
图像分类
在大规模图像处理场景(如图像分类业务)中,TI-EMS 可以全面利用异构资源池,结合模型加速优化和框架优化技术,提高大规模图像处理服务在线推理效率。
语音识别
随着语料库的不断更新,语音识别业务面临着服务的快速更迭,TI-EMS 通过多模型支持、版本管理、支持在线灰度升级,高效应对业务的快速稳定迭代。