智能钛机器学习平台是为 AI 工程师打造的一站式机器学习服务平台,为用户提供从数据预处理、模型构建、模型训练、模型评估到模型服务的全流程开发及部署支持。智能钛机器学习平台内置丰富的算法组件,支持多种算法框架,满足多种AI应用场景的需求。自动化建模(AutoML)的支持与拖拽式任务流设计让 AI 初学者也能轻松上手。
智能钛机器学习平台 TI-ONE 目前已开放体验。
为 AI 工程师打造的一站式机器学习服务平台,从数据预处理、模型训练、模型评估到模型服务,为用户提供全流程的开发及部署辅助。
TI-ONE 通过可视化拖拽,自由绘制任务流,可视化模型训练等让 AI 探索过程变得极为简单。此外,良好的交互体验和易用的功能设计,能够极大地降低了机器学习的技术门槛,您只需通过设计工作流,拖拽节点,配置节点参数几个简单的步骤就可以进行数据的探索,模型的训练,在线推理,例行化执行等。
TI-ONE 内置丰富算法,从传统的机器学习算法到深度学习,图片分类、GAN、目标检测、NLP 满足各类细分场景与应用方向。同时,支持用户自定义算法到TI平台执行,给专业用户带来很大的灵活性。
TI-ONE 囊括多种框架:PySpark/Spark/Pycaffe/PyTorch/Tensorflow/XgBoost,满足不同开发者的使用需求与习惯。
TI-ONE 不仅支持任务流搭建训练模型,还可将模型保存到模型仓库进行多版本的管理。同时,还支持将模型导出,应用到用户的其他系统。
训练完成的模型可以一键部署为模型服务,服务版本将自动与模型版本对齐,方便管理与追溯。同时灰度发布与流量分配功能将让版本升级更便捷无忧。
TI-ONE 支持本地数据上传,手动在线建表,以及与 COS 对象存储服务进行对接。
只需要拖动自动建模组件、输入数据TI即可自动完成建模的全流程,无基础的 AI 初学者也可毫无障碍的完成整个训练流程。
TI-ONE 提供节点收藏,模型收藏功能,收藏后可直接复用。
TI-ONE 支持模型评估结果可视化评估,并可支持多次训练效果的一览式对比,让您以简单直观的方式迅速找到较优模型。
TI-ONE 独有的4种驱动方式:手动,定时,参数驱动和重跑,可以并发执行,您可自由分配并发数量组合,实例之间将不受影响。
手动:单次调试和执行,各节点都支持单点运行。
定时: 支持周期性调度策略,可支持自定义时间粒度。
参数驱动:支持以 KV 方式在运行过程中的参数替换。
重跑:支持对历史时段的数据进行重新处理(还支持中断后续跑功能)。
批量参数调优:TI-ONE 支持参数集功能,一键设置多种参数组合进行调优,大大提高您的训练效率。
多机多卡:TI-ONE 深度学习支持多机多卡调度(tensorflow),突破单机限制。
通讯加速:TI-ONE 采用 rmda 网络通信替换 tensorflow 原生的 gRPC 通信,使 Tensorflow 的集群间通讯速度更快(50%提升)。
监控:TI-ONE 多种监控配置。
任务自动重试:TI-ONE 支持自定义失败重试机制,支持自定义时间监控规则。
支持多 IDC,多集群调度:TI-ONE 任务可运行在多集群多 IDC。
模块 HA:TI-ONE 平台核心模块都有 HA 设计,避免单点。
断点恢复:TI-ONE 支持所有任务中断,停止后的状态保存,按现场恢复后继续执行。
智能钛机器学习为 AI 从业者打造一站式全流程的机器学习服务,平台功能覆盖 AI 模型生产全流程:数据预处理、模型训练、模型评估、模型服务部署与批量预测等。智能钛机器学习平台为用户提供训练的机器学习模型及深度学习模型所需的全部工具服务。
智能钛机器学习内置丰富的算法,包括常用的分类、回归、聚类、图像分类、目标检测、自然语言处理以及腾讯针对特定场景优化的算法。丰富的算法集合满足用户在各种场景下对特定算法的应用需求。此外,模型服务的灰度发布与模型间多版本切换预测功能,让模型服务的升级流畅而又灵活,大大降低模型服务在生产环境中由版本升级带来的不确定风险。
智能钛机器学习支持多样化的交互方式,以便满足各类用户的不同使用习惯。全自动建模(AutoML)和拖拽式自定义任务流交互设计,帮助 AI 初学者及企业内算法工程师快速上手。另外,面对专业级用户,多框架组件支持用户上传自定义算法,赋予用户更高的灵活性,自动调参功能大幅提升专业用户的调参效率。
AutoML 全自动机器学习组件让非 AI 从业人员也可轻松运用机器学习解决各类问题,获得价值。
半自动调参技术将大幅提升 AI 从业者的调参效率,让时间不再浪费在手动的多次低效试错中。
云端的高可用 GPU 分布式集群服务器,满足大规模深度学习模型训练对性能的要求且支持随时购买随时使用。
基于 GPU 的分布式机器学习平台,兼容 TensorFlow、Pytorch、Pycaffe 等主流开源机器学习框架,用户可在平台上灵活地定义算法模块。
智能钛机器学习平台对 GPU 分布式集群服务器上的深度学习模型训练算法进行优化,能够大幅提升训练速度,从而缩短模型训练的时间。与原生 TensorFlow 框架相比,智能钛机器学习平台在128块 GPU 卡集群上的训练速度能提高1 - 3倍。
使用智能钛机器学习平台,用户可以节省搭建机器学习平台和管理物理资源的时间,把精力聚焦在更有业务价值的建模工作上。
模型的一键部署让用户训练的模型与实际场景业务无缝对接,同时服务版本的灰度升级与流量分配功能,能帮助用户在实际的业务中灵活地进行升级与回退操作,大幅降低版本切换风险。
随着不法分子的作业手段日益更新、滞后的风险识别与居高不下的坏账率损失一直是各大金融机构的痛点。智能钛机器学习可以基于金融机构大量与风险有关的高质量数据搭建风险监控模型,提高风控的时效性、准确率和覆盖率。从贷前的额度审批、贷中的交易反欺诈到贷后的催收,覆盖各个环节,大幅减小金融机构的风险损失和管理成本。
如何精准触达目标消费者,提高购买转换率一直是各大商业主体都关心的问题。智能钛机器学习可以根据历史成交数据训练匹配模型,预测各个场景下客户和商品的最优匹配,从而实现提升营销效果、降低营销成本、挖掘潜在客户、实现交叉销售等目的。
传统的工业质检依赖大量人力,成本高且漏检率难以提升。智能钛机器学习可以基于设备参数数据与生产图像对产品进行缺陷检测与缺陷分类,大大降低人力成本、提升缺陷检出率的同时帮助企业进行质量控制数字化管理。
随着人工智能行业的兴起,各类 AI 算法大赛层出不穷,如何提供满足各参赛队伍的使用习惯的工具,同时又能支撑数千人的高并发一直是各举办单位的痛点。智能钛机器学习内置的丰富算法与框架组件可以满足不同用户的使用习惯,高性能集群稳定性可以支持大批量的训练任务。
随着生活水平的提高,业主对物业的管理要求也日益升高,同时面临居高不下的人力成本挑战。智能钛机器学习基于图像识别算法,智能识别进出小区的车辆,以及所有垃圾堆放点的情况,打造智能化物业管理方式,降低人力成本、提升业主满意度。
执法部门常常面临大批量人员的定期监察管理,耗费大量人力物力。智能钛机器学习基于图像识别算法,对监察对象的状态与行动路径进行实时智能管理与预警,大大提升执法部门管理效率,降低管理成本。
新建 notebook 的时候会选择 bucket,我们会把 bucket 里面的文件挂载到 notebook 容器中的 /cos_person 目录下,访问的时候,在路径前面加上 /cos_person 就可以了。
此种情况很可能是您 COS 目录下的 notebook 文件夹存在大数据文件,目前第一次启动 notebook 容器时,会把 cos /notebook 文件夹里的数据 copy 到容器里面的 /notebook 目录里,数据量大的话就会卡住,从而报错。
建议:COS 目录下的 notebook 文件夹存放的数据文件不要过大。
根据提示加上--user 即可解决。
如直接:pip install lightgbm,会报下图错误。
修改成:pip install --user lightgbm。
安装后若使用不了,可以尝试重启下 notebook 容器内核。
目前试运营阶段,给大家配置的资源是有限制的,所以当您创建 notebook 容器时选择的资源超过了您当前可用资源,容器创建便会失败。如遇其他情况,请联系工作人员处理。
一般是 notebook 容器里运行的程序所需要的资源超过了现有的资源环境,导致异常终止。请调试程序,合理使用资源,如遇其他情况可联系工作人员处理。
notebook 容器运行失败后不能再打开,可做删除处理。但里面生成的数据已经同步到您的 COS 存储桶里了,您只需再新建一个容器,新建时选择同一个 COS 存储桶即可,历史数据会同步到新容器里。
不存在,需要重新进行安装。
机器学习的组件和算子是基于 spark 开发的,都是分布式运行。
主要是基于 spark 的 ml 库(ml 是 dataset-based,mllib 是 RDD-based)。
使用 PySpark 或者 TensorFlow 组件,您也可以 import sklearn。
PySpark / Tensorflow 等组件是自带 numpy 的。
机器学习是基于 spark 的,同时支持 scala 和 Python(pyspark)。
支持,但是 pyd 文件无法放在压缩包中导入,应该单独放在依赖文件(不能压缩)或者放在 COS 上, 然后在程序依赖中填入 COS 路径即可。
原因可能是您在“程序依赖”中填了一个 COS 路径, 这个路径下面不止包含 Python 的依赖文件,还包含大量的数据文件。 Tensorflow 组件把这些数据文件当做依赖导入,所以耗时很久。
登录 CAM 角色管理界面,按以下步骤操作:
单击【新建角色】-选择【腾讯云产品服务】。
勾选中【腾讯智能钛】,单击【下一步】。
在【策略列表】中搜索【QcloudAccessForTIRole】,并选中,单击【下一步】。
【角色名称】填写【TI_QCSRole】>【角色描述】选填【腾讯智能钛(TI)操作权限含列举对象存储(COS)文件,读取、删除、添加、修改文件内容等 】,单击【完成】,即手动完成 COS 授权。
登录 CAM 角色管理界面。
检查是否完成 COS 授权给智能钛产品。
若检查结果为已授权,存在角色:TI_QCSRole,建议删除此角色,重新完成 COS 授权。
如不存在角色:TI_QCSRole,请进行 COS 授权。
复制蓝色底色中的文字至相应的存储桶的查询窗口,便可搜索到对应文件。
支持,操作步骤如下:
右键【模型图标】,单击【模型操作】>【导出模型】即可。
支持,操作步骤如下:
在【模型仓库】页,单击页面上方【导入模型】,可以将外部的模型导入平台进行统一管理,支持来源为用户的 COS 路径与本地上传。
目前平台支持3种运行环境:
pmml:一般使用机器学习时选择此运行环境。
pb:一般使用深度学习时选择此运行环境。
angel:此环境一般针对 angel 算法,后续会支持此种算法。
20核CPU,128GB内存,2GPU卡(64GB显存)
目前没有限制。
可以登录 腾讯云镜像源加速 PIP 网站 查询。
可以打印的,需要在脚本前添加编码信息: #coding:utf-8。
平台只是提供了运行环境,可能与您自身的代码有关系,如果不确定,建议在本地运行排查下原因。
内置 Demo 需复制到自己的的工程中方可运行,操作步骤如下:
在 【我的工程】>【典型任务流】中,单击【复制】。
选择工程名称,单击【保存】,复制成功。
单击复制的工作流,进入画布。
运行任务流。