腾讯云手势识别(Gesture Recognition,GR)是基于腾讯音视频实验室推出的新一代人机交互技术,包括静态手势识别、关键点识别、指尖识别、手势动作识别等多种功能,为开发者和企业提供高性能高可用的手势识别服务。可用于互动娱乐、智能家居、VR/AR、智能车载、智慧商超、工业质检等多个行业。
腾讯云手势识别方案包括静态手势识别、手部关键点识别、手势动作识别等一整套的解决方案,全方位分析人类手势行为的含义。
静态手势识别是指对于任意一幅给定的图像,采用一定的策略定位其中是否有手,如果有则返回手的位置、手势的类别等信息,位置用方框表示。
目前,本手势识别方案中的静态手势识别定义了 25 种常见手势,其中包括 17 种单手手势和 8 种双手手势,如果检测到的手势不在这些类别当中,则会返回其它。
下图为您展示默认可识别的 25 种手势列表,包括:
单手手势:单手比心、确认、点赞、踩、爱你、胜利、摇滚、打枪、弹指、拳头、食指、中指、小 指、手掌、数字3、数字4、数字6。
双手手势:比心1、比心2、比心3、无效、停止、祈祷、抱拳、插手。
手部关键点识别是指对于任何一幅给定的图像,如果图像中有手,则定位手的22个关键点的位置,每个关键点的位置用它在图像中的横纵坐标表示。这22个关键点包括大拇指、食指、中指、无名指、小拇指的指尖、指间关节,以及手心 和手腕,不区分左右手。下图为您展示22个关键点在手上的位置分布。
指尖识别是一种特殊的手部关键点识别,是指对伸出食指这种手势的食指指尖进行定位的技术。在任意一张图片中,如果其中手势的类别是伸出食指,则返回指尖的位置,其中位置用横纵坐标表示。因为只需要识别指尖的位置,本方法在处理速度与精确度上要优于识别所有关键点的方法。
手势动作识别是指对于给定的视频,识别其中特定的手势动作。根据手势在视频序列中的位置变化和状态变化,判断手势动作是否在预定义动作中,如果属于预定义动作,则在动作结束时返回动作类型。其中定义的近距离动作包括左滑、右滑;远距离动作包括挥手、举手、敬礼等。
腾讯云手势识别(Gesture Recognition,GR)是基于腾讯音视频实验室推出的新一代人机交互技术,包括静态手势识别、关键点识别、指尖识别、手势动作识别等多种功能,为开发者和企业提供高性能、高可用的手势识别服务。可用于互动娱乐、智能家居、VR 与 AR、智能车载、智慧商超、工业质检等多个行业。
静态手势识别是指对于任意一幅给定的图像,采用一定的策略定位其中是否有手,如果有则返回手的位置、手势的类别等信息,位置用方框表示。目前,本手势识别方案中的静态手势识别定义了25种常见手势,其中包括17种单手手势和8种双手手势,如果检测到的手势不在这些类别当中,则会返回其它。
下面给可识别的这25种手势的列表,包括:
单手手势有:单手比心、确认、点赞、踩、爱你、胜利、摇滚、打枪、弹指、拳头、食指、中指、小指、手掌、数字3、数字4、数字6。
双手手势有:比心1、比心2、比心3、无效、停止、祈祷、抱拳、插手。
手部关键点识别是指对于任何一幅给定的图像,如果其中有手,则定位手的22个关键点的位置,每个关键点的位置用它在图像中的横纵坐标表示。这22个关键点包括大拇指、食指、中指、无名指、小拇指的指尖、指间关节,以及手心和手腕,不区分左右手。如下图展示了这22个关键点在手上的位置分布。
指尖识别是指只对伸出食指这种手势的食指指尖进行定位的技术,是一种特殊的手部关键点识别。给定任意的图片,如果其中手势的类别是伸出食指,那么返回指尖的位置,其中位置用横纵坐标表示。因为只需要识别指尖的位置,本方法在处理速度与精确度上要优于识别所有关键点的方法。
手势动作识别是指对于给定的视频,识别其中特定的手势动作。根据手势在视频序列中的位置变化和状态变化,判断手势动作是否在预定义动作中,如果属于预定义动作,则在动作结束时返回动作类型。其中定义的近距离动作包括左滑、 右滑,远距离动作包括挥手、举手、敬礼等。
腾讯音视频实验室团队长期致力于图像处理领域,凭借 QQ 海量用户群体在真实环境下的体验和反馈,在手势识别领域积累了业界领先的完整解决方案。目前,音视频实验室在手势识别方面拥有大量的训练数据,包含了丰富的真实场景,在这样数据集的测试场景中,静态手势识别算法的正确率为95+%,手势关键点算法的识别正确率为94+%,手势动作识别的正确率为90+%。
积累了静态手势识别、手势关键点识别、手势动作识别等一套分析用于人类手势的能力,为产品落地提供强大的技术保障,从算法模型落地到产品流程设计形成良好的闭环,从技术上最贴合实际用户使用场景,保障技术与实际业务最完美的切合。
基于海量用户群体的体验和反馈,音视频实验室手势识别技术针对各种光照、各种背景进行了优化,保障用户最完美的使用体验。
音视频实验室手势识别技术包括静态手势识别、手部关键点识别、手势动作识别等一整套的解决方案,全方位分析人类手势行为的含义。
在含有丰富场景的手势测试集中,本手势识别方案中的静态手势识别算法的正确率为95+%,手势关键点算法的识别正确率为94+%,手势动作识别的正确率为90+%。
本音视频实验室手势识别技术能够在移动端满足实时性要求。例如在 iPhone8 上,静态手势识别速度为22ms/fps,手部关键点识别速度为28ms/fps,手势动作识别速度为30ms/fps。这样的处理速度,让用户能够直接在移动端,无需联网的情况下也能实时体验手势识别能力。
结合用户的手势(如点赞、比心),实时增加相应的贴纸或特效,应用特效随手而动。
视频聊天和自拍是互联网中比较常见的场景,在这些场景中,人们往往想要与屏幕对面的人产生互动,此时可以通过手势识别特效来活跃气氛。
作为智能硬件控制指令,远距离操控智能家电、家用机器人、可穿戴等硬件设备,人机交互方式更加智能。
在虚拟环境中,赋予人们贴近现实生活的手势导航和控制能力,建立最直接的人机交互方式。
AR 应用近几年来受到很多的关注。从现实场景切换到虚拟场景的方式有很多种,其中有一种比较有趣的方式用手在空中画一个圈,就像卡通动画中出现的时空门一样,实现场景切换。手机 QQ 在2018年世界杯期间举办的 AR 扫一扫活动就是使用这种方式,在现实世界中画个圈,跳转到世界杯的球场。
用手势在空中画圈这个过程中,就用到了本方案中的指尖识别能力。当手势状态从其它手势变为食指时,开始画圈。在手势经过的地方出现一个圈,就像使用魔法棒一样,用户体验极佳。
在嘈杂环境下,通过车载手势,控制左滑、右滑、音量的加减、菜单等操作,有效补充语音识别短板,车内交互更加方便自然。
目前仅支持 Android、iOS 两大移动操作系统。
Android 最低版本4.0,iOS 最低版本8.0。
在申请到 SDK 后,接入文档会和 SDK 一起提供,并进行线下对接服务。
提供按设备和按应用2种永久授权方式。
静态手势识别、手势骨架识别、手势动作识别、指尖识别与追踪。
现阶段只支持线下对齐升级,后续官网可支持下载最新的 SDK。