智能推荐(Tencent Intelligent Recommendation),依托于腾讯海量用户行为和广泛产品覆盖,以数据 + 算法 + 系统为核心,结合腾讯在电商、游戏、金融、泛娱乐、资讯及 3C 等多领域深厚的大数据技术积累,为客户提供基于海量用户画像 + 实时大数据机器学习的内容个性化推荐 PaaS 服务。您只需进行简单的 API 调用,即可快速拥有业界顶尖的大数据应用能力。
优势点 | 为什么选择腾讯云智能推荐 TIR? |
---|---|
帐号 | 腾讯帐号体系 20亿+ 设备(imei/idfa)识别,无缝打通腾讯海量用户画像。 |
画像 | 多维度用户画像 建立多维度用户画像,包括但不限于年龄、性别、地域、学历、资讯、泛娱乐、电商、金融、生活等,全方位一体化刻画用户,保证精准性和覆盖度,有效解决业务中冷启动、画像稀疏等各类问题。在内外业务中,平均点击率提升50%+,转化率提升40%+。 |
系统 | 超大规模实时机器学习系统 结合海量多维度精准画像,基于实时行为上报,构建超大规模实时机器学习系统。系统包括但不限于 ETL 平台、特征选择平台、机器学习平台、在线服务平台、效果评估平台及运维管理平台。多平台有机合作,为数字化服务把好每一道质量关。 |
实时 | 实时营销服务系统 构建全实时营销服务系统:实时数据上报(秒级)+ 实时画像关联(秒级) + 实时兴趣更新(秒级)+ 实时机器学习模型训练(分钟级) + 实时在线营销服务(毫秒级)。 在数据和算法保持不变的前提下,相对按小时离线计算,平均点击率提升20%+。 |
可靠 | 自动化监控及质量保证 提供可靠成熟的自动化监控系统和质量保证团队,7*24 小时监控 + 实时 push 服务。 |
MD5 和 request_id 用做数据校验,目的是防止竞争对手的流量攻击。目前 TOKEN 验证正在完善,可以先用一个字符串代替,后续再找腾讯云分配。目前接收请求的 CGI 还没有对这块验证,因此前期数据接入,MD5 可以随便填写。
TOKEN 和 request_id 是用来生成 MD5 的,因此 TOKEN 先不用关心。另外,如果后续有了 TOKEN,md5(bid&request_id&TOKEN) 其中的&符号是需要跟 bid、request_id 拼接在一起的,需要把这个‘&’拼接到字符串里面,一起生成 MD5。
一般耗时30ms - 40ms之间返回。
尽可能上报用户真实看到的曝光数据,而不是拉取的商品都作为曝光数据上报,且曝光行为里面的多个 item_id,需要按照给用户展示的真实的位置顺序上报。此外,尽可能后端上报,这样数据更稳定。
item 上报:是单条上报,目前不支持批量上报,但商品的频率、个数都不限制。同一个 item_id 有更新时,后面的 item 会覆盖前面的 item 信息。
action 上报:表示哪个用户(uid),在哪个场景下(scene_id),对哪些 item(item_id),进行了点击/曝光等操作(action_type),即 uid,item_id,action_type,scene_id 这个四元组需要对应起来。
如果没有分配 scene_id 的点击或者成交等,scene_id 可以暂时不填写。但要注意的是,上报过来的场景 A 的点击和曝光数据,一定是场景 A 下产生的点击和曝光,不能是其他场景的点击和曝光。可以简单理解为“某个场景下的曝光和点击数据,要么点击和曝光一起上报,要么都不上报(包括成交、购买等)”。
参数名称 | 类型 | 必传 | 含义 |
---|---|---|---|
MD5 | string | Y | MD5(bid&request_id&TOKEN) |
request_id | string | Y | 请求标识,格式:毫秒级时间戳_随机数,随机数建议三位以上 |
data_type | integer | Y | 协议类型:1 - item,2 - action,物料上报取1。 区分上报和请求是两个不同的域名,上报:data.dm.qcloud.com,请求:service.dm.qcloud.com |
item_id | string | Y | 物料 ID,物料唯一标识,数值和字符串都可以 |
scene_id | string | Y | 推荐场景 ID,由腾讯分配,例如有“猜你喜欢”,“热门商品”等推荐模块 每一个模块都有一个 scene_id 来表示,到时腾讯方会为每一个接入的场景,分配一个 scene_id |
pool_id | string | N | 物料池,表示商品可以在哪些地方进行推荐展示,示例如下: “热门商品”场景,有一个“全部” tab,还有“女装”、“食品”等 tab 或者分类页,此时给每一个 tab 分配一个 pool_id,“全部”:1,“女装”:2,“食品”:3 当一个商品可以在“全部”这里推荐,也可以在“女装”这里推荐,则该商品的 pool_id 写为1;2 当一个商品既可以在“全部”这里推荐,也可以在“食品”这里推荐,则该商品的 pool_id 填写为1;3 pool_id 可以是数字,也可以是其他字符,但是要有区分性,同步到双方即可,多个 pool_id 之间使用分号分割 |
trace_id | string | Y | 跟踪点击和曝光的自定义会话 ID,用来关联“曝光-点击” session 的,是由业务上报方生成的,一般是由 uid_时戳_ 随机数生成的一个 ID,为了保证点击跟曝光是同一个用户对同一个 item 的操作行为;强烈建议每次曝光分配一个 trace_id,如果点击来自这次曝光,赋之相同的 trace_id,这样就能识别 session 了 |
tags | string | N | 作为模型的特征使用,是对物品的一个重要的区分特征,tags 的丰富、区分程度,很大程度上决定了模型训练的好坏,该字段尽可能的把商品的类目、品牌、标签描述等都填写到该字段,不同 tag 之间使用分号分割 |
vender | string | N | 可以传品牌,商家,店铺,广告主 |
extend | string | Y | 扩展字段,用作特殊字段处理,例如后续模型要进行 ABtest,可以传算法 ID,其他的一些数据,后面分析业务特点或者业务根据自身的经验,进行填写上报,用不到可以不填写 |
uid | string | Y | qq,微信号,imei/icfa,手机号
|
source | string | Y | 用于分流的标识字段,区分用户的行为是哪个算法,取值为 bus,tx,def 三者之一;其中 bus 表示业务自己的算法(business);tx 为腾讯算法;def 为默认算法(default),可以理解为随机算法或者对照组 |