AI最佳形式就是一个喇叭一个麦
一个框,震撼了一个时代
2006年夏天,高考结束的那个傍晚,同学拉着我去网吧查分。那是小镇上一间闷热的、烟味混着泡面味的网吧,我第一次见到了一个能上网的页面。
它叫百度。
那时的网页设计还停留在"信息越满越好"的阶段——门户网站恨不得把首页堆成一个巨型超市货架。新闻、游戏、天气、股票、邮箱、聊天室……每一个像素都在争夺你的注意力。
而百度搜索的首页,就真的只是一个框。
白色背景,一个矩形输入框,下方一个"百度一下"按钮。没了。
就这么简单的一个设计,把我彻底震住了。
"这个框能搜到全世界的东西。"同学说。
我输入了"清华大学 录取分数线",按下回车。一瞬间,密密麻麻的结果出现在屏幕上。那个瞬间我意识到:我面前这个极简到近乎空旷的页面,背后连接着的是整个互联网的信息洪流。
后来工作了,学了技术,做了产品,越来越理解当年那个震撼感从何而来。
不是因为框有多精巧,而是因为把所有复杂度都藏在了你看不到的地方。
从"一个框"到"一个喇叭"
2010年代,移动互联网爆发,框变成了手机上的搜索栏,后来又变成了各种App的首页。但本质没变——用户输入关键词,系统返回结果。
那AI来了之后呢?
最初几年,大家把AI做成了"更聪明的框"——对话框。你打字,它回答。这不是不对,但这是边界思维,不是范式思维。
边界思维是在旧容器里做优化。范式思维是换一个容器。
什么是AI的最佳交互形式?
我最近的答案是:一个喇叭,一个麦。
你说话,AI听着。AI说话,你听着。仅此而已。
不需要学习怎么用。不需要理解什么是prompt。不需要像在跟机器说话一样,一字一句地敲键盘。就像你跟朋友聊天,嘴巴一张,话就出去了。
"一个喇叭一个麦"这个设计哲学意味着:
- 输入是语音——你说,它就懂
- 输出是语音——它想好了,就说回来
- 交互是连续的——不需要按键、不需要确认、不需要多余步骤
有没有发现?这是人类几万年进化出来的最自然的信息交换方式。没学会写字认字之前,人就已经会说话和听别人说话了。
技术越复杂,交互越简单
这是过去二十年互联网产品发展最清晰的规律之一:
后台每堆砌一层复杂度,前台才能多一条化简路径。
百度搜索当年之所以能做"一个框连接全世界",是因为背后有爬虫系统、索引系统、排序算法、海量服务器集群。用户看到的简单,是技术上的不简单。
今天的语音AI也是同样逻辑。
为什么你能对着喇叭说一句话,它就知道你要干什么?因为有大模型做语义理解,有ASR做语音转文字,有TTS做文字转语音,有端到端延迟优化,有上下文的时序管理……每一层都是地狱级的技术难题。
但用户不需要知道这些。
用户只知道:对喇叭说话,有回答。就像呼吸一样——你不必理解肺泡和血红蛋白是怎么工作的,你只需要能吸气、能呼气。
这是一条几乎颠扑不破的产品真理:用户付钱买的是"能干成事"的确定性,不是"这套东西有多复杂"的敬畏感。
现在很多AI产品做反了
看看市面上各种AI产品,特别是一些创业公司的:
- 上来先让你选模型:GPT-4o还是Claude还是豆包?
- 选完模型还要选角色:你是要助理模式还是专家模式?
- 进入了还要选功能:知识库、联网搜索、文件上传、图片生成……
- 每一步都在消耗用户的认知资源
我做产品这么多年,最怕一个数据:第二天留存。
第二天留存低,说明什么?说明用户来过一次就走了,再也不来了。
为什么走了?因为门槛太高。
AI产品最大的陷阱,就是产品经理和技术团队太怕"不够AI"。总觉得要有花里胡哨的功能、各种炫酷的参数配置,才能体现出这是一个AI产品。
但用户的朴素期待恰好相反:我想要最简单好用的解决方案,至于背后是不是AI,我不在乎。
一个需要学三分钟才能上手的产品,就已经输了。一个需要懂prompt engineering才能发挥功能的产品,就已经输了。
创业者应该追求的三件事
如果把"一个喇叭一个麦"作为产品哲学,那创业者在AI产品设计中的优先级就很清楚了:
第一,先想清楚用户在什么样的场景下,需要什么样的输出。
你做的AI产品是给谁用的?在什么时刻用?他要完成什么任务?
比如你做AI医生助手,医生的场景是什么?是忙了一上午、又累又渴的诊室里,他需要快速了解一个病历。你给他做个精美的可视化面板不如让他说一句"这个患者既往史有哪些",然后喇叭读给他听。
第二,默认走最短路径,把选择藏起来。
用户不需要在第一步做任何选择。系统应该根据上下文自动判断。
就像你走进电梯,你不需要告诉它"请上升到15楼"——你按15,它就懂了。你需要决定的,只有一个数字。其他一切都是自动的。
好的AI产品,用户需要做的决策次数,一只手数得过来。
第三,错误处理比正常流程重要100倍。
语音交互最大的痛点是:说错了怎么办?AI听错了怎么办?
这也是喇叭麦的设计里最见功力的地方——不是它听懂了怎么办,而是它没听懂的时候怎么优雅地告诉你。
好的设计:用户说"帮我订一张去北京的机票",AI没听清"北京",它应该确认"您说的是北京吗?",而不是直接跳到搜索引擎问"您说的是保靖、北海、北碚还是北京?"。
后者是把负载转嫁给了用户。前者是把复杂度留给了自己。
像呼吸一样自然
我一直在想一个问题:什么是最好的技术体验?
最后得到一个答案:让你感觉不到技术存在的技术。
你打字的时候,不会觉得笔的存在很奇怪。你听歌的时候,不会盯着音响研究它的音圈结构。你和朋友聊天的时候,不会思考空气怎么振动产生了声波。
好的技术应该是隐形的。
所以,AI最终极的产品形态,一定不是给你一个大屏、一堆参数、一个可以拖来拖去的控制面板。它应该是一个安静待在房间角落里的东西——你叫它,它应;你需要,它在;你不需要,它安静。
一个喇叭,一个麦。
从2006年那个闷热的网吧里,我看到的最简约的框,到今天我能想象得到的最简约的交互——它们共享同一个产品真理:
真正伟大的产品,把复杂留给自己,把简单还给用户。
你想做一个很酷的AI产品?那就问问自己:用户需要学多久才能用上它?
永远记住——不是你用AI有多"厉害",而是AI让你感觉不到它在。像呼吸一样,你不在意它,它却在每一刻支持着你。
短视频逐字稿
【0:00-0:05】 (画面:2000年代网吧,昏暗的灯光,一个少年坐在电脑前) 旁白:2006年高考结束,我第一次在网吧打开了百度。
【0:05-0:15】 (画面:极度放大的百度首页,聚焦在搜索框上,周围一切虚化) 旁白:就一个框,白底,一个输入框,一个按钮。没有废话。 那个瞬间,我人傻了。
【0:15-0:25】 (画面:快速切换——键盘打字、弹出来的搜索结果、各种网页) 旁白:一个框,能连接到全世界的信息。背后的技术有多复杂我不知道,但用起来,就这么简单。
【0:25-0:35】 (画面:对话框界面,用户打字,AI回复,屏幕越来越花哨) 旁白:到了AI时代,大家把AI做成了更聪明的搜索框。其实方向是对的,但不够极致。
【0:35-0:50】 (画面:抽象动画——一个喇叭和一个麦克风的图标,语音波纹在两者之间流动) 旁白:什么是AI最好的交互形式?一个喇叭,一个麦。 你说话,AI听着。AI说话,你听着。 不用学,不用教。人类天生就会。
【0:50-1:00】 (画面:各种复杂的AI产品界面快速闪过——模型选择、角色切换、功能面板) 旁白:现在很多AI产品搞反了——功能堆砌越多,用户跑得越快。
【1:00-1:10】 (画面:回到安静的房间,一个智能音箱,没有任何屏幕,安静地亮着微光) 旁白:真正好的AI产品应该是什么样? 你感觉不到它的存在。 就像呼吸一样。
【1:10-1:20】 (画面:文字定格——"把复杂留给自己,把简单还给用户") 旁白:把复杂留给自己,把简单还给用户。 这句话,值十个亿。
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。


评论