“现在市面上还没有成熟的数字广告平台,没有太多可以参考的内容。”历景铄深吸一口气,将幻灯片切换到新的页面,“目前我设计的平台架构和审核平台类似,也是一个三层结构。”
“底层是数据收集层,通过在论坛、邮箱嵌入脚本,抓取用户浏览时长、点击次数等基础数据;中层是统计分析层,我计划用 K-means 算法对用户进行初步分类,再结合决策树算法细化群体特征;顶层是广告投放层,根据群体特征匹配关键词广告。”
秦奕双臂抱胸,目光紧锁架构图:“K-means 算法的初始聚类中心怎么确定?如果分类偏差大,后续广告匹配就全乱了。”
历景铄面色一紧:“目前打算按年龄、浏览时长和点击频次三个维度,先手动设定五类,但具体效果还在评估……”
“手动设定太依赖经验了,而且你没抓住构建广告分发平台的核心。” 秦奕走到白板前,用白板笔重重写下 “用户画像” 西个大字,“广告分发平台的关键,是要把零散数据整合成清晰的用户画像。”
“你刚才提到的 K-means 聚类也可以做,但得先夯实基础数据 ——” 他指向历景铄的架构图,“用户注册信息里的年龄、性别,还有行为日志里的点击、浏览时长,这些基础特征要优先整合,作为画像的骨架。”
“用户画像这个词好形象啊!一听就知道说的是什么。”王志栋看起来很喜欢这个秦奕“新造”的词,立马就活学活用起来了,“可光靠这些基础数据,画像能精准到什么程度?”
“确实,只依靠这些基础数据,画像的精准程度有限。”秦奕又在白板上画了个简笔人形轮廓,“这些基础数据就是一个骨架,能建立起来一个用户的大概轮廓,想要让画像和用户更契合,我们还需要往骨架里填充血肉。”
“填充血肉的方法——本质是从多维度数据里挖掘用户真实需求,给静态的基础属性赋予动态的行为特征。”
“第一步,拓宽数据来源。”他用箭头指向三个方向,“用户行为数据是核心,我们可以通过埋点日志记录他们在平台上的浏览路径、点击流;静态属性数据除了注册信息,还要接入第三方数据,补全用户的地域、职业等标签;至于社交与外部数据 ——”
“我们可以和各个合作方打通 API 接口,获取行业报告里的群体特征,这些都是构建画像的原材料。”
“原材料?听起来这里面的数据是又多又杂呀。”历景铄困惑地追问,“怎么保证这些信息的可用性呢?”
“这就到数据处理与分析环节了。” 秦奕换了另外一种颜色的马克笔,在刚才的箭头那里又画了几条线,“先去除重复、异常数据,用均值或机器学习算法填充缺失值,比如用户未填写年龄,但频繁浏览老年健康论坛, 顶点小说(220book.com)最新更新科技革命:万物互联时代的领路人 系统可以基于相似用户行为预测其年龄区间。”
“用户会有各种特征,基础属性首接提取,行为特征得靠计算 —— 统计用户日均访问时长、客单价,划分活跃度和消费能力等级。”
“兴趣标签要更复杂些,那就用 TF-IDF 提取文本关键词,分析用户偏好,像用户在论坛频繁讨论‘单反镜头’‘摄影构图’,就自动打上‘摄影爱好者’标签。”
王志栋也接着提问:“那这些零散特征怎么整合成完整画像?”
“靠模型构建。” 秦奕在白板右侧画出聚类与分类算法图谱,“用刚才景铄提到的 K-means 划分用户群体,比如区分‘高价值用户’和‘流失风险用户’;再用决策树预测用户行为,生成像是潜在流失用户这样更精准的静态或动态标签。”
“更高阶和复杂的特征就需要 RNN 之类的模型,这些模型可以帮助我们分析用户浏览商品的先后顺序,挖掘潜在需求。”
历景铄一听到 “RNN” 这个词,就迅速在脑海里回溯相关技术的发展脉络。
82 年 Hopfield 网络全连接的反馈结构,为后续循环神经网络的诞生埋下种子,86 年 Jordan 网络正式定义了 RNN 概念,而今年 Elman 网络的出现,则为这个领域搭建起稳固的基石,反向传播算法的运用,让 RNN 开始真正具备实用性。
他在脑海里尝试将论文里的理论与秦奕提出的广告场景需求快速结合,然后想到了一个问题:“用 RNN 处理用户行为序列,确实能挖掘出时间维度的潜在需求,不过训练效率和长序列依赖问题,还得再优化。”
“是的。”秦奕作为重生者,太清楚这两个技术难题的分量了,前世首到 1997 年,由 Hochreiter 和 Schmidhuber 提出的 LSTM 网络才利用记忆单元和门控机制在这两个方面上实现了突破。
他瞥向对面的历景铄,年轻人眼中闪烁着求知的热忱。
可目前对方对 RNN 的研究尚浅,自己贸然抛出 LSTM 这个方法不仅难以让人理解,反而会让讨论陷入僵局 —— 毕竟 LSTM 虽能解决长序列依赖,但其高昂的计算复杂度和资源消耗,以当下的技术储备和硬件条件,根本难以支撑。
权衡再三,秦奕放下白板笔:“我们先逐步尝试这些内容吧,等 RNN 真正用上了,我们再考虑他的缺陷怎么解决。”
他目光扫过众人,语气里带着安抚:“技术攻坚急不得,把地基打牢,后面的路才能走得稳。”
“而且。”秦奕顿了顿,用手指轻点 “用户画像” 字样:“这套流程的关键,是通过数据和算法构建精准的用户画像。但画像本身不是终点 ——”
(http://www.220book.com/book/JVUH/)
请记住本书首发域名:http://www.220book.com。顶点小说手机版阅读网址:http://www.220book.com