搜索技术有哪些关键技术(百度肖阳搜索是互联网的根技术)

文|赵艳秋 编|王飞飞 01 为何大厂重新关注搜索? 今年以来,搜索市场格外热闹。 在9月底举办的2022万象大会上,百度告诉与会者,即便规模基数已经很庞大,百度搜索的规模在过去一年仍同...

文|赵艳秋

编|王飞飞

01

为何大厂重新关注搜索?

今年以来,搜索市场格外热闹。

在9月底举办的2022万象大会上,百度告诉与会者,即便规模基数已经很庞大,百度搜索的规模在过去一年仍同比增长了17%。

“有些人说用户现在是不是不用搜索了,用其他形态的产品替代了搜索?其实恰恰相反,殊途同归,最终搜索还是用户表达需求的最主要入口。”百度集团副总裁、搜索平台负责人肖阳说,搜索是互联网的“水电煤”,是基石应用。最近这些年,用户的搜索场景越来越丰富,搜索也远未定型。伴随人工智能在搜索上的应用,搜索演进的速度也越来越快。

一个多月前,华为发布了鸿蒙3.0,其背后的搜索技术也随之浮出水面。而苹果应用市场显示,字节跳动近期对间接控股的“悟空搜索”进行了新的定位和改版,这是字节跳动几年前入局全网搜索、先后推出头条和抖音站外搜索后的最新进展。国内另一家短视频公司快手也在去年推出搜索。

在今年5月谷歌I/O全球开发者大会上,前两年一直大谈人工智能的谷歌,今年将重点重新放在了核心业务“搜索”上。搜索业务仍占谷歌总营收的80%以上。

谷歌通过几个有趣的案例,展现了搜索的最新变革。其中一个是在巧克力店寻找“不含坚果的黑巧克力”。用户用手机镜头去扫描货架,在移动的取景框内,对多个不同物体进行连续搜索,并通过AR叠加的方式,展现这些物体的相关信息,最终找到了需要的巧克力。

百度肖阳:搜索是互联网的“根技术”

所以,不难发现,与PC互联网的搜索不同,当前大厂加码搜索的背后,是搜索的多元化演进,搜索也是人工智能技术落地的绝佳场景,在人工智能技术发展中发挥着巨大作用。

搜索的界面虽然非常简单,但根据百度杰出研发架构师辜斯缪的介绍,任何一个现代搜索引擎,都需要上万台的服务器,才能提供一个基本的服务。所以,不断优化整个系统,减小算力消耗是搜索的一个重要目标。这倒逼百度开发了人工智能芯片、飞桨深度学习平台、人工智能大模型。百度也是首家将大模型应用于搜索的企业。搜索有了一套自主开发的高效基础设施。

“这也让百度成为一个AI平台,这是搜索的价值所在。”肖阳告诉数智前线,“搜索是迄今为止从商业化、规模化、技术难度、应用各方面,都可以支撑大规模人工智能的场景。人工智能能赚钱的大领域、复杂的领域不多,搜索是目前唯一的一个。”

实际上,百度很多技术体系也基于搜索。比如像自动驾驶,它就像状态空间的搜索。搜索的内涵和外延都在不断拓展,也产生很多“副产品”。

当然,除了能落地新技术,搜索本身也是大型互联网企业非常赚钱的业务。从谷歌今年7月发布的第二季度财报看,亮点也来自其传统搜索业务,收入同比增长14%,达到407亿美元。即便其他业务不达预期,但外媒评价,搜索以一己之力满足了华尔街投资人的胃口,谷歌股价当日上涨了5%。

02

搜索的演进远未到终局

很多人都认为搜索是一个成熟的稳态业务,但实际上,大厂的动作恰恰也反映出,搜索正处在变革期。

“iPhone14和华为mate50谁更好?”、“姚明和奥尼尔谁高?”、“窗户缝隙漏水怎么办?”,从三四年前开始,用户用更自然的方式进行搜索,从找东西变成问问题。

百度肖阳:搜索是互联网的“根技术”

对于人的大脑来说,这些问题理解起来并不难,但对于搜索引擎却是一个巨大的挑战。这导致搜索引擎和自然语言处理出现了很大的技术变革,深度学习被广泛采用,来进行语义训练,从而让搜索引擎更能理解用户的问题和意图。

用户也在用语音、图片和视频等多元的方式随时随地进行搜索。比如,用户上传一张图片、一段小视频,甚至一段鸟鸣,问图片里、视频或音频里是什么动物。

这里涉及多模态搜索,也是大厂纷纷发力的点。根据百度的数据,以语音搜索为例,其语音搜索的PV过去一年同比增加了22%,月活用户数超过1.1 亿。

但要实现多模态搜索并不容易。以视频搜索举例,搜索引擎要理解视频中人们说了什么,手里拿着什么东西,身上穿的什么衣服......这些并不容易。

除了多模态搜索,视觉、语音和文本的跨模态融合搜索也是一个突破方向。用户可以边拍边说,更清楚地表达他们的需求。

大厂都在推出跨模态模型。其中,百度推出了名为“知一”的模型,在原来语义模型基础上,引入了跨模态,并推出了边拍边说的搜索。谷歌也推出了简称MUM的人工智能模型。谷歌CEO桑达尔·皮查伊称,很快,谷歌将引入同时使用图像和文字进行搜索的新方法。

多模态之外,“服务即搜索”也是各大厂正在竞争的赛道。抖音、快手的搜索与自身直播电商能形成闭环。百度从2019年开始打造小程序和本地店铺这类基础设施,目的也形成闭环服务。

“许多人在百度搜索是为了进行更好的决策。而且,我们看到这些搜索处于决策的更前端,他们还在对比品牌好坏。”肖阳对数智前线说,“所以,我们这几年聚焦打造决策类的技术和资源,我们发现用户是买单的。”

这背后是建立电商知识图谱,升级商品跨模态理解和匹配。以搜索“酒店”为例,它可以根据聚合的酒店介绍、定价、评价、榜单和对比信息,帮助用户推荐性价比较高的酒店。

搜索正在进行快速的变化,大厂都在探索搜索内容消费的边界,而业界认为,这个边界还非常远。

除了搜索即服务,一些用户的搜索非常个性化,需要人脑的知识来解答。

比如,河南郑州一位堵车用户问前方堵车点的情况,百度为他实时匹配到在堵点附近的一位答主,答主立刻解答了问题,并同步了现场施工修路的照片。这是百度推出的“问一问”,它的5分钟响应率是95%,每日响应咨询次数在400万以上。这背后的关键技术是动态答主匹配、海量答主画像理解、实时对话理解等。

全球搜索大厂之间的技术竞赛也如火如荼。“我们正在对谷歌AI和DeepMind等人工智能研发进行大量投资——我们将其应用到整个公司,尤其是在搜索的场景下。”桑达尔·皮查伊称,谷歌推出了BERT、MUM、Pathways 和 LaMDA 人工智能技术,“在人工智能团队和包括搜索在内的核心产品团队之间,建立了良好接口,以将其产品化。”

百度也在万象大会上官宣了跨模态大模型“知一”和新一代索引技术“千流”。其中,千流主要用于解决,当下数据规模超前巨大,搜索引擎又要在毫秒级将检索结果反馈给用户的巨大矛盾。据悉,千流采用了基于栅格化索引的智能内容激发路径,能让更多长尾创作者和优质内容被搜索和看到。

03

搜索内涵的外延

搜索的内涵还在外延,其中一个是数字人。

数字人涉及一个很长的技术栈,包括了语音合成、3D、渲染,其中评判数字人质量的一个重要指标是它的交互能力。“女娲造人要注入灵魂,数字人最后拼的就是能不能注入数字人灵魂。”肖阳说。这背后的关键是对话模型。

有人认为与数字人交互式的方式,重新定义了搜索。肖阳则认为它是搜索的补充和升级。百度的数字人度晓晓除了聊天绘画唱歌,更重要的作用是陪伴。

另一个延展是视频内容的消费。比如窗户缝隙漏水怎么办,最好是搜索出一段生动的视频去演示。根据数据,过去一年,视频的搜索和消费在高速增长,比如百度的视频分发同比增长170%以上。

关于视频搜索,一个功能是直接定位在某个时段某一帧视频,从而节省用户的时间。这对视频而言,难度陡然增加。搜索目前正在加强对视频内容的理解,建立视频内容的索引,对视频结构化,以及深度视觉问答技术。

搜索的竞争力离不开算力、算法和生态。这次百度也推出了人工智能生成视频的AIGC工具。因为很多搜索内容是长尾的,本来流量就不大,如果用人力生产,成本会较高。AIGC会赋能到更多知识生产场景中。这是视频生态的举措之一。

由于技术更新换代变快,算力和数据的井喷,算法在不断迭代,现在搜索作为互联网的根技术,演进正在提速。而用户的需求也在不断被激发,搜索和用户之间正在上演“双向奔赴”。

  • 发表于 2022-11-15 15:37:02
  • 阅读 ( 146 )
  • 分类:科技

0 条评论

请先 登录 后评论
游金柱
游金柱

643 篇文章

你可能感兴趣的文章

相关问题