A | A | A

第86章 深挖用户画像:推荐系统召回阶段的多元策略

顶点小说 更新最快! 科技革命:万物互联时代的领路人 http://www.220book.com/book/JVUH/ 章节无错乱精修!
 在“人人书库”APP上可阅读《科技革命:万物互联时代的领路人》无广告的最新更新章节,超一百万书籍全部免费阅读。renrenshuku.com人人书库的全拼.com即可访问APP官网

“怎么利用好用户画像也是相当重要的。”秦奕在白板上写了一系列的词汇,“在用之前的一系列方法构建好精准的用户画像之后,我们还要要搭建一套完整的推荐系统,让数据真正服务于用户体验和商业目标。”

“第一个阶段,我把他称之为召回阶段。”秦奕开始讲述前世经典的推荐工作流,“这个阶段就像大海捞针,系统要从海量广告池中快速筛选出可能符合用户兴趣的候选集。”

“这里面有一个相当好用的方法,我把它称之为协同过滤算法,它基于一个比较朴素的概念 —— 物以类聚,人以群分。”

历景铄困惑地追问道:“秦总,这个协同过滤算法从概念上确实容易理解。但落到实处,该怎么用数学的方式将它表达出来,真正应用到软件系统里呢?”

他明白很多东西在现实世界里说起来首观,通过简单的语言描述、手势比划或实物演示,就能让听众快速理解其运作原理与核心要点。

可一旦要将这些具象的概念、流程和经验转化成严谨的数学语言,用公式、模型和算法进行抽象表达时,就像隔着一层迷雾,不仅原有的首观感消失不见,复杂的符号与逻辑关系更会让人陷入困惑,难以抓住其本质。

秦奕拿起笔,在白板上画下两个重叠的圆圈:“最基础的协同过滤算法分两种 —— 基于用户和基于物品。”

“基于用户的协同过滤,就是计算哪些用户兴趣相似,给你推荐和你‘口味’相同的人喜欢的广告;基于物品的协同过滤,则是统计广告之间的‘捆绑出现’频率,就像被游戏广告吸引的用户,大多也会点击游戏周边商品的广告,这就能精准找到推荐线索。”

随着他手上白板笔的舞动,“Sim (A,B)” 的公式跃然板上:“以余弦相似度为例,把用户 A 和 B 的历史行为数据,比如浏览过的广告、点击记录,看作高维空间里的向量。”

“通过计算这两个向量夹角的余弦值,数值越接近 1,说明两人兴趣越相似,这样,我们就能把 A 用户浏览过的广告,推荐给相似的 B 用户,并在用户画像里不断补充他们共同的兴趣标签。”

“基于物品的协同过滤更首接。我们可以利用广告之间的共现频率,比如发现 80% 看了广告 X 的用户,都同时看了广告 Y,这就说明 X 和 Y 之间存在强关联。”

“当有新用户点击广告 X 时,系统就顺势推荐 Y,同时在用户画像中记录下这种关联偏好,让画像对用户兴趣的刻画更细致。”

历景铄若有所思地点头:“但这样的推荐会不会太宽泛?比如两个用户只是偶然有一两次相似点击,也会互相推荐?”

“问得好,这就是需要优化的地方。” 秦奕擦掉部分内容,写下 “朴素贝叶斯算法”,“我们可以引入你刚才在审核平台上用的这个算法做二次筛选。”

“朴素贝叶斯基于概率论,通过公式 P (C|X),能根据用户行为特征 X,计算出其属于某兴趣群体 C 的概率。”

他快速举例,“假设 X 是用户频繁浏览科技论坛、点击硬件广告这些特征,C 是‘科技爱好者’群体,通过计算概率,就能精准判断推荐价值,过滤掉无效关联,让用户画像只保留真正有意义的兴趣标签,推荐自然更精准。”

历景铄凑近白板:“但频繁计算概率,模型会不会过拟合?”

“针对这个问题。”秦奕在公式旁画了个警示符号,“我们可以再用正则化优化。在损失函数里加入正则项,调整超参数控制模型复杂度,虽然增加了计算量,但能让推荐更精准。”

王志栋这时又提出了自己的担忧:“这算法逻辑越堆越多,现有的服务器硬件吃得消吗?”

“我们不需要一步到位把这些所有的算法步骤都塞进流程里。” 秦奕放下白板笔,“硬件算力不足,那就拆分任务。”

“比如协同过滤算法里,基于用户的相似度计算和基于物品的共现分析,可以分开运行;朴素贝叶斯的概率计算,也能分批次处理。先保证核心流程跑通,再逐步优化。”

“甚至白天服务器负载重,我们可以只做数据收集和简单预处理,把原始数据存进磁盘阵列。”

“等凌晨系统空闲,再启动完整的模型训练 —— 先跑协同过滤算法生成初步推荐池,接着用朴素贝叶斯筛一遍,最后用正则化优化参数。”

“说远了,这些方面的优化我们在后续讨论广告平台工程实现的时候再展开,我们继续关注推荐过程吧。”

秦奕拍了拍手,将众人的注意力重新聚焦到白板上:“协同过滤只是召回阶段的‘主力军’,我们还有其他‘武器’能派上用场。”

“第二个常用方法是内容召回。用户画像里记录着用户的兴趣标签,像‘摄影爱好者’‘游戏玩家’这些。” 秦奕指着画像示意图,“内容召回就是首接根据这些标签,从广告素材库中筛选出匹配的内容。”

“比如用户 A 的画像里有‘摄影’标签,系统就去检索带有‘相机评测’‘摄影教程’关键词的广告。这里我们可以利用 TF-IDF 算法计算广告文案和用户兴趣关键词的相似度,相似度越高,越优先召回。”

“但内容召回也有局限。” 他在旁边画了个问号,“如果广告文案写得隐晦,或者用户兴趣小众,就容易漏筛。所以我们还需要热门 / 场景召回作为补充。”

秦奕切换到轻松的语气:“想象一下新年期间,不管用户画像如何,广告主都会把‘新年特惠’‘年货节满减’这类热门广告推出来,这就是场景召回;而对于新注册用户,系统没有他们的行为数据,就先推荐近期点击率最高的广告,这是热门召回。”

历景铄很快就意识到里面可能出现的问题:“这些召回方法同时运行,会不会产生大量重复推荐?”



    (http://www.220book.com/book/JVUH/)

    请记住本书首发域名:http://www.220book.com。顶点小说手机版阅读网址:http://www.220book.com
顶点小说 有求必应! 科技革命:万物互联时代的领路人 http://www.220book.com/book/JVUH/ 全文阅读!顶点小说,有求必应!
(快捷键:←) 返回目录 (快捷键:→)