马华腾听了王志栋的想法,又从实现的角度上补充了一句:“这个想法好,我们用基于正则表达式的文本解析器提取标题、导语和关键词,再套用预设的新闻摘要模板,这样简化流程后,单篇处理耗时应该能大幅缩短,日均处理量也能显著提升,足以满足初期用户需求。”
“好像是挺好的,一般人看新闻可能也就最关注官方新闻。”常先举了个例子,“我们可以设置‘若新闻包含 “最高行政机关”“政策” 关键词,且发布源为官方媒体,则标记为一级时政新闻’的规则库。”
“是的。”秦奕一开始说明智能处理的难度,便是想要让大家对智能的期望不要太高,现在大家提出的这种更切合实际的“人工智能”实现方式显然和他的想法不谋而合,“我也觉得在技术达不到比较好的智能要求时,我们可以使用一些经验规则来达到一定程度的个性化推送。”
“除了志栋说的这个,我们也可以把新闻按行业、地域、时效性分级,先保证重要信息优先推送。等硬件升级后,再逐步加入用户行为分析。”
“但是——”秦奕话锋一转,“虽然现在用于智能技术迭代的数据量严重不足,我们也不能什么都不做,这样相关的数据永远都会在不足的状态,智能技术也没有办法达到有效的发展。”
前世在通用智能体崭露头角的时期,国内人工智能领域虽热情高涨,却因高质量数据匮乏,尤其是中文数据稀缺,陷入了发展的困境。
数据、算法与算力构成了人工智能发展的三大基石,而数据在其中扮演着决定 AI 能力上限的关键角色。
在学术资料库、期刊以及文化出版物等核心知识载体中,英语占据了绝对主导地位,据相关研究显示,自 1900 年至 2015 年间,收录于 SCI 的 3000 多万篇文章里,高达 92.5% 以英语发表;SSCI 出版的 400 多万篇文章中,93% 同样使用英语。
这种语言上的不平衡,首接导致在各大训练数据中,中文语料比重不足千分之一,而英文语料占比却超过 92.6%,进而对国内以中文处理为主的通用智能体的表现产生了极为显著的影响。
以自然语言处理任务为例,由于缺乏大规模、高质量的中文语料库进行训练,一开始国内开发的智能体在语言理解、语义生成以及上下文关联等方面,与国际先进水平存在明显差距。
在文本摘要生成任务中,因对中文复杂句式和语义关系把握不足,生成的摘要常常关键信息遗漏严重,语句连贯性差,实用性大打折扣。
在机器翻译场景下,面对富含文化内涵、语义模糊的中文词汇和句子,智能体更是频繁出错,翻译结果生硬晦涩,难以满足实际应用需求。
在工业、医疗等专业领域,数据匮乏的问题更加严峻。
在医疗数据方面,受历史和习惯等复杂因素影响,医疗机构间存在严重的 “数据孤岛” 现象。2021 年《全民健康信息化调查报告》显示,我国三级医院平均仅有不到 20% 的医疗机构采用医疗大数据应用,二级医院的这一比例更低,不足 5%。
这使得通用智能体难以获取足够的医疗数据进行深度训练,在疾病诊断辅助、医疗影像分析等关键应用场景中,表现远未达到预期,无法为医疗工作者提供精准、可靠的支持。
反观国外,OpenAI 等企业凭借海量数据和强大算力,不断推动生成式人工智能发展,从 GPT 到 GPT2 再到 GPT3,在语言生成、内容创作等方面展现出强大能力。
相比之下,国内通用智能体因高质量数据的掣肘,始终难以突破关键技术瓶颈,在全球人工智能竞争格局中,逐渐被拉开差距,难以在国际舞台上占据领先地位,这样的情况一首持续到 2025 年,DeepSeek 另辟蹊径,通过创新的技术路线才实现了一定程度的追赶。
“除了新闻的数据量积累之外,用户方面的数据量也需要积累,我们需要建立一个用户行为系统。” 秦奕接着说道,“用户在桓山问泽上的每一次点击、每一次滚动鼠标滚轮,都是一座等待挖掘的金矿。”
“我们可以在网页代码里嵌入简单的计数器程序,用户打开新闻页面,计数器就开始计时;点击链接跳转,对应的代码模块就记录下跳转路径,这些数据就像面包屑,能拼凑出用户完整的浏览轨迹。”
他拿起一支红色记号笔,在白板上快速画出交错的箭头:“初期先聚焦三个核心维度:访问频率、停留时长、交互行为。”
“比如某用户每天晚上八点准时访问财经板块,在‘股市分析’类文章平均停留 7 分钟,还经常使用评论功能 —— 这些数据整合起来,就能初步勾勒出一个资深股民的画像。有了这些信息,我们后续优化简报推送策略时,就能在每晚八点半精准推送定制化的财经新闻摘要。”
马华腾这时提出了异议:“但存储和分析是个大问题。按照每条行为数据占用 10 个字节算,一千个用户一天产生的数据量就能塞满我们现有服务器 1% 的存储空间,没几个月我们的服务器空间就满了。”
“所以得做分级存储管理。” 秦奕立刻回应,在白板上划出三个区域,“热数据保留最近 7 天,存储在磁盘阵列里,方便实时调取分析;温数据归档到磁带机,保留三个月;超过三个月的冷数据首接存进磁带库。”
“磁带库的存储密度高,能容纳海量数据,而且数据保存时间长,非常适合冷数据的长期存储。”
他顿了顿,继续补充道:“另外,我们还要引入数据压缩算法。”
“像 Lempel - Ziv - Welch(LZW)这种无损压缩算法,在处理文本类的用户行为数据时,能有效降低存储容量需求,数据存储量至少能减少三分之二,这样即便数据量不断增长,我们的存储成本也能得到有效控制。”
“分析方面,先用基础的统计函数跑用户行为趋势,等明年引入计算能力更强的小型机后,再尝试聚类算法细分用户群体……”
(http://www.220book.com/book/JVUH/)
请记住本书首发域名:http://www.220book.com。顶点小说手机版阅读网址:http://www.220book.com