“不过界面设计只是一方面,内容呈现的逻辑也得再打磨。” 常先眉头紧锁,“我跑了不少单位做采访,发现大家获取新闻的方式实在是太不方便了。”
“市面上报纸种类繁多,时政消息登在党报,经济动态藏在专业财经报,科技进展又分散在各类行业报刊,同一个事件的不同角度报道更是分布在不同版面。”
“有些单位即便订了七八种报纸,堆在传达室里,员工也很难快速找到自己需要的信息;还有企业让文员每天在各大 BBS 上手动摘抄行业新闻,不仅效率低,信息还经常滞后。更麻烦的是,不同渠道的新闻质量参差不齐,重要资讯可能淹没在大量无效信息里。
“不少单位为了获取时事资讯,会订上七八种报纸,可这些报纸大多堆在传达室无人问津;还有企业让文员每天在各大电子公告板上手动摘抄行业新闻,不仅效率低,信息还经常滞后。更麻烦的是,不同渠道的新闻质量参差不齐,重要资讯可能淹没在大量无效信息里。”
他抬起头,目光扫过会议室里的众人:“咱们桓山问泽既然是国内第一个新闻领域的网站,能不能做个‘智能简报’功能?”
“就像给用户配备一个专属新闻管家,自动整合筛选全网资讯,按照用户的阅读习惯和行业需求,每天定时推送精准的新闻摘要,这样一来,用户不用再大海捞针般找新闻,重要信息也能第一时间触达。”
“落实到具体产品功能的话,我理解应该就是让桓山问泽网站根据用户在站内的浏览历史,每天定时整理定制化的新闻摘要,首接推送到浪心邮件或者青鸟软件里。”
王志栋听到常先的这个建议,愣了一下:“八西科技现在确实就有做新闻简报的传统,瑾龙那边基本上每周都要花一两个小时的时间做这事,如果能够由桓山问泽来把这事情干了好像也还不错。”
“但难点在于,怎么判断用户真正感兴趣的内容?现在的算法可没那么智能。”秦奕笑了,“‘智能’这两个说起来轻轻松松,要真做好可不简单啊,算法、数据、硬件这些事情没有一个是能随随便便就做好的。”
“算法方面,做新闻摘要用的是自然语言处理技术,这个领域现在主流方法是基于规则的关键词提取,就拿 TF-IDF 算法来说,它的原理基于两个核心概念 —— 词频 Term Frequency,简称 TF 和逆文档频率 Inverse Dot Frequency,简称 IDF。”
“词频 TF 很好理解,它统计的是一个词语在一篇文档中出现的次数。出现次数越多,就意味着这个词语在该文档中的重要性可能越高。”
“比如在一篇关于‘经济改革’的新闻里,‘改革’‘经济’这类词频繁出现,那它们的词频自然就高。但单纯依靠词频有个明显缺陷,像‘的’‘了’‘是’这类常用词,在任何文档里出现的次数都可能很多,可它们对理解文档核心内容几乎没有帮助。”
“这时候,逆文档频率 IDF 就发挥作用了。IDF 反映的是一个词语在整个文档集合中的普遍重要性。它的计算逻辑是,用文档集合的总文档数除以包含该词语的文档数,再取对数。”
“简单来说,如果一个词语在大量文档中都出现,那它的 IDF 值就会很低,比如前面提到的常用词;而如果一个词语只在少数文档中出现,说明它更具独特性,IDF 值就会比较高,例如特定的专业术语或事件名称。”
“TF-IDF 算法就是将词频 TF 和逆文档频率 IDF 相乘,得出每个词语的 TF-IDF 值。这个值越高,就代表该词语在当前文档中越重要,越有可能是关键信息。”
“以做新闻摘要为例,通过计算新闻文本中所有词语的 TF-IDF 值,筛选出 TF-IDF 值较高的词语所在句子,就能初步提取出新闻的关键内容。”
“但这种基于规则的关键词提取方法,只能机械地统计词频和文档分布,缺乏对语义的理解,根本无法把握句子之间的逻辑关系,所以生成的新闻摘要大概率会出现连贯性差、关键信息遗漏等问题 。”
“所以目前要是做新闻摘要,只能人工预设规则,比如‘保留含 5 个以上名词的句子’,可实际应用时,摘要前后不连贯,关键信息遗漏率超过 40%。”
“而在数据方面,条件也是相当不成熟的。”
“人工智能之所以被称为人工智能,就是因为得先有人工才有智能,必须有足够量的高价值数据才能训练出一个出色的智能模型,现在中文电子新闻文本撑死了才 10 万篇,数据这么少,用 n-gram 语言模型算出来的准确率,也就 35% - 50%,根本达不到能用的标准。”
“硬件方面更是个大坎。”
“现在最快的主机,运算速度才 12MIPS,处理一篇 500 字的新闻就要 3 - 5 分钟。可智能简报要实时处理大量新闻,还得分析用户行为,这速度远远跟不上。”
“再说存储,光是新闻文本索引就要占 MB 级内存,咱们服务器内存普遍才 4 - 16MB,根本放不下多少数据,更别说大规模实时处理了。”
秦奕讲述完毕,会议室陷入短暂的沉默,只有头顶白炽灯发出细微的电流声。
马华腾摘下眼镜,用衣角反复擦拭镜片,这个习惯性动作暴露了他的焦虑:“按这么算,就算咱们把现有服务器全用上,每天能处理的新闻量也不够千人同时使用。难道真要搁置这个功能?”
常先重重地靠向椅背:“可市面上新闻获取的痛点实实在在摆在这,咱们不做,迟早有人做。我上周去机械厂采访,厂长办公室里堆着《国民日报》《经济日报》《科技日报》,光找一篇相关报道就要翻半小时,要是有个‘电子报童’能首接送上门……”
王志栋在思索了一阵之后,突然眼前一亮:“技术瓶颈是死的,人是活的!咱们可以先做个简化版 —— 用户手动勾选关注领域,系统只从固定十家报刊抓取内容,用预设模板生成简报。这样数据量和计算量都能压下来。”
(http://www.220book.com/book/JVUH/)
请记住本书首发域名:http://www.220book.com。顶点小说手机版阅读网址:http://www.220book.com