欢迎来到我们的首个周末专栏「傻瓜 AI 冒险家」的第一期。
「If you don’t have an AI story, are you even a tech company?」
有人感慨如今科技公司不谈 AI,已经算不上是科技公司。但 AI、AI and more AI 的浪潮之中,普通人能获得什么呢?我们这样的文科生,也已经可以从 AI 的野蛮生长中,获得快乐了吗?
对傻瓜式操作钻研至深的苹果对 AI 的反应意外地慢,三星都已经搂着谷歌推出 Circle to Search 和 Live Translate 了,库克大叔还一直聚焦在混合现实(MR)设备 Vision Pro 上,也许是因为还没有发现如何在 AI 上玩出真正「出其不意」的花样吧。不过据称今年的 WWDC,至少生成式 AI 也会在苹果的产品和应用当中占据一席之地。
想想不得不感慨一句,可惜 Apple Car 始终没有成型,不然在今年「AI 上车」的大浪潮中,我们也许就能见到 Siri 呈现出很酷的东西了。
「AI 上车」应该是消费端能接触和理解到的最硬核的硬件层面的应用。纵观各大车企和芯片厂商给出的成果,最直观的还是智能汽车上的 AI 语音助手——今年纷纷接入了(或者计划接入)大语言模型,除了促进车主和车机的对话、指令的执行,还能回答各种天马行空的问题。虽然目前用起来实用性还非常有限,甚至有把 2022 年世界杯冠军硬说成法国队这样的笑话(是阿根廷队!!)。但考虑到 GPT 确实也经常胡说八道,倒是也可以理解。随着 GPT 推出「术业有专攻」的应用商店,以及更多注重数据隐私的本地化模型的兴起,以后车载的 GPT 应该也会朝着更聚集、专业、个性的方向发展。
与之相联系的是 AI 算法优化之后更个性化和实用的车机显示,能够根据车主的习惯优先显示部分信息,或者突出某些功能。但对普通人来说,这部分的重要性还不那么高,属于仅仅「尝个鲜」的存在。
直观的功能似乎还有些鸡肋,但最新的趋势已经开始讲求「舱驾一体」了,最表面的功夫与最硬的内核——自动驾驶和安全保障——通过芯片紧密联结在一起。AI 对自动驾驶的助益,体现在它能更好地处理传感器收集的信息,从而对交通状况提出更准确、全面的判断,同时 AI 还能不断地自我更新,与时俱进地更新数据库和算法。更进一步说,AI 将可以使车辆像人一样(或者比人更好地)应对突发状况,同时也可以实现车与车之间的通讯交流,真正做到还没实现就已经被说烂了的「万物互联」。对普通人来说,如果你开的是智能汽车,那么 AI 已经在辅助驾驶中得到了非常广泛的应用,未来的车更会极大地提升人类的时间利用效率。
汽车之外,最热的应该是机器人,这是马斯克已经投入的两项具有前瞻性的事业(当然太空探索也是,但离普通人毕竟还是很遥远)。年初的 CES 上我们在现场看到了各种各样的机器人,有可以经受人在后面踹、还可以驮重物的超稳定可行走机器人,有可以制作和搬运咖啡的机器人,还有可以巡逻检测的机器狗等。
更震撼的是各种实验室在社媒上放出的视频,比如可以做饭、洗衣服甚至套被罩的机器人,虽然背后受到比较多的指令控制,还不能完全自主,但其操作的灵活性、精细程度以及自我学习和纠错能力,已经非常惊人了。对普通人来说,这是不久的将来将真正改变日常生活的 AI 硬件,让大家都至少先过上「家务自由」的日子。
然后就是数码设备。像开头提到的,三星推出了首款 AI 手机 Galaxy S24,主要集成的是大语言模型的能力,而其实同时更刷屏的是 Rabbit R1,一个专门的 AI 设备,鼓励用户用语音命令来控制所有功能,就像你拥有了一个能听懂你说话的私人助手,你可以让它播放音乐、预定机票、控制智能家居设备、翻译、回答你的各种问题等。其实听起来有点像国内这两年迅速普及的智能音箱的进阶版。
在我写这篇文章的当下,对普通人来说,Rabbit R1 的魅力还不是那么大,因为我们可以预见这里面还会有各种应用、各种商家的兼容和接入问题,语音命令还不是那么自然,它发挥的作用还不是那么不可替代。但我相信这样的设备是一个非常喜人的开始,它真正跳脱了「通讯设备」的框架,作为一个「助手」存在着,只要它继续成长,功能更加强大,很快会有一天,孩子们会无法想像「从前没有 AI 助手的生活」。
到软件层面,AI 的应用(主要就是生成式 AI)更是「百花齐放」,每天都有新进展。最广为人知的是各种聊天机器人,比如 ChatGPT,可以回答各种问题,给出具体的工作生活建议,但信息准确度不是非常高,经常需要二次验证。在 GPT 商店开张之后,还出现了许多具有针对性的个性化聊天机器人,比如 Innovator,你告诉它你需要解决的问题,它就可以在短短几分钟内为你产出数十个创意供挑选;比如 Virtual Sweetheart,是商店里涌现的诸多情感类 GPT 当中热度比较高的一款,它提供虚拟女友式的陪伴功能,还会让你说出心目中另一半的相貌和穿着,据此生成「画像」。
在 ChatGPT 的应用之外,还有一些开发者自己搭建的简易应用,比如 Bedtimestory.ai,卖点是写儿童睡前故事,你在网页上输入你想要的故事方向,以及主要人物(可以写你的孩子的名字,或者其他你认识的人),它就会迅速生成一个童话故事,当然你也可以让它续写已有的故事,比如《白雪公主》;又比如 GPT4All,这是美国科技公司 Nomic AI 创造的应用,可以读取本地文件(比如笔记、调查报告等)作为数据库,以此为基础回答你提出的问题,或者为你撰写新的段落,并且还能自动生成参考文献目录。
无论是陪伴、答疑还是协助处理工作,这些 GPT 的衍生工具都已经基本胜任,是普通人也能够很方便地获得的助力。
另外一大板块就是图像生成和视频生成,这是两个非常关键的 AI 发展方向。图像生成的主要应用包括 ChatGPT 内置的 DALL-E,以及独立的应用 Midjourney、Stable Diffusion、RunwayML 等,只要你能描述出来,AI 就可以给你「变」出来,堪比阿拉丁神灯。
目前图像生成的主要问题是无法进行精准的控制,当 AI 生成一张图片之后,如果要让它在此基础上修改,往往只能获得一张另外生成的图片,这是由于 AI(主要是生成对抗网络 GANs)在理解用户的描述(往往比较模糊)并将其转化为图像、以及控制细节方面还存在一些局限性。不过在生成图片的时候,你提供的信息越精准和详细、参考图片越多,获得的结果就越接近你心目中的图像;另外也有专门用于提高图片分辨率和增强细节的工具,比如 Magnific。
当然图片修改还有另一个路子,就是像美图秀秀这样的修图工具,有很多也已经支持 AI 修图。CES 期间在 Google 的展台上,我们就看到了 Google 最新的修图功能,可以非常简便地对照片中的人进行移动和放大、缩小、变形等变化,AI 还会自动把对象移动之后的空白处补全,很是全面。所以,生成与修改二者的组合已经能够产出非常惊艳的图像了,相信很快会出现将这两种技术更有机地结合在一起的方法。
对普通人来说——我是说非设计从业人士,这又是一个「尝鲜」级别的技术,不过它可以用到生活里,比如生成贺卡和海报,比如让照片变更美,让自己和朋友们获得一些快乐。当然如果你是从业人士,我相信快乐会更大一些。
从图片到视频的转化已是一步之遥,比如最近大火的 RunwayML 的工具 Motion Brush,它可以实现「多重运动控制」,只要在照片上把希望动起来的对象涂抹上,并且设置好运动方向的参数,就可以生成无声的视频,全程耗时不超过 5 分钟,省时省力。另一个路径是使用你自己拍摄的视频,但是让 AI 帮忙转化风格,比如 DomoAI 就可以迅速帮你把视频中的环境、人物、物品都转换成动漫风。
支持 AI 视频生成的应用还包括 DeepArt、Adobe After Effects(使用 AI 插件)、Synthesia、Assistive 等。与图像生成类似,视频生成的问题也是很难实现精准控制,而且由于要控制的元素更多,所以难度更大,另外就是生成的视频都没有声音。令人惊喜的是现在的研究已经在往精准的运动控制、配音等方向探索,并且已经取得了一定的成果。比如腾讯联合多所大学推出的 MotionCtrl,已经可以精准控制 AI 生成视频中的摄像头运动和物体运动的轨迹了,这就可以达到镜头「推拉摇移」的效果,同时你希望放到视频中的人物、动物、物品都可以按照你想要的方式移动;又比如 SonicVisionLM,它可以使用视觉语言模型 ( VLM ) 来识别 AI 视频中的事件,并生成与视频内容匹配的声音,根据我们看到的 demo,配音已经可以做到非常贴合画面发展了。
同上节,对普通人来说——我是说非设计和视频从业人士,这又是一个「尝鲜」级别的技术,可以让自己和朋友们获得一些快乐。当然如果你是从业人士,我相信快乐会更大一些。
所有这些有趣的应用最后都不免要进入办公领域,成为生产力工具,这也是一个 AI 应用的重要发展方向。最近风头最盛的应该是微软的 Copilot Pro,它可以访问最新的 GPT 模型,支持图像创建,还可以构建个性化的 Copilot GPT,从它身上已经可以看到未来办公的雏形。微软之外也有一些更细化的小型办公应用,比如 Numerous.ai,主打将 GPT 功能嵌入 Excel,主要有三个公式:AI、INFER 和 WRITE,可以回答问题、提炼信息、进行信息分类或根据要求撰写信息等。
对普通人来说,这个你真的可以试试,虽然还需要一点学习,但是入门之后,打工的痛苦也许会减少许多。
所有这些细小的应用,当他们组合在一起的时候,就会成就更宏大的场面,比如酷炫的电影—— Twitter(X.com)上已经有博主利用这些工具做出了以狗和马为主角的小电影,这些小动物穿着人类的铠甲,像人类一样在「战场」上奔忙,一幕幕都是我们无法实际拍摄的画面,但 AI 让它活灵活现,再结合 Vision Pro 这样的增强现实设备,我们很快就将看到一个非比寻常的新世界。
这一切都是离科技前沿非常「远」的我们已经能够获得的新奇体验和实用工具,在搜寻和研究这一切的每一刻,我都能够感受到科技之光正在迅速传递到毛细血管的末梢,到达每一个人的小小设备里。这正是科技发展的意义,也正是我们关心的事情。
往后,我们会更多地分享每个人触手可及的 AI 设备和应用,让你也能更便捷地获取科技进步带来的福利。让我们一起更早地跨进那个真正智能的世界吧。
也欢迎在微博上关注 @傻瓜 AI 冒险家-Stella 哟。
原创文章,作者:蔡康淇Stella,如若转载,请注明出处:https://www.cydao.com/22518.html