你也从 AI 的野蛮生长中，获得快乐了吗？| 傻瓜 AI 冒险家

欢迎来到我们的首个周末专栏「傻瓜 AI 冒险家」的第一期。

「If you don’t have an AI story, are you even a tech company?」

有人感慨如今科技公司不谈 AI，已经算不上是科技公司。但 AI、AI and more AI 的浪潮之中，普通人能获得什么呢？我们这样的文科生，也已经可以从 AI 的野蛮生长中，获得快乐了吗？

对傻瓜式操作钻研至深的苹果对 AI 的反应意外地慢，三星都已经搂着谷歌推出 Circle to Search 和 Live Translate 了，库克大叔还一直聚焦在混合现实（MR）设备 Vision Pro 上，也许是因为还没有发现如何在 AI 上玩出真正「出其不意」的花样吧。不过据称今年的 WWDC，至少生成式 AI 也会在苹果的产品和应用当中占据一席之地。

想想不得不感慨一句，可惜 Apple Car 始终没有成型，不然在今年「AI 上车」的大浪潮中，我们也许就能见到 Siri 呈现出很酷的东西了。

「AI 上车」应该是消费端能接触和理解到的最硬核的硬件层面的应用。纵观各大车企和芯片厂商给出的成果，最直观的还是智能汽车上的 AI 语音助手——今年纷纷接入了（或者计划接入）大语言模型，除了促进车主和车机的对话、指令的执行，还能回答各种天马行空的问题。虽然目前用起来实用性还非常有限，甚至有把 2022 年世界杯冠军硬说成法国队这样的笑话（是阿根廷队！！）。但考虑到 GPT 确实也经常胡说八道，倒是也可以理解。随着 GPT 推出「术业有专攻」的应用商店，以及更多注重数据隐私的本地化模型的兴起，以后车载的 GPT 应该也会朝着更聚集、专业、个性的方向发展。

与之相联系的是 AI 算法优化之后更个性化和实用的车机显示，能够根据车主的习惯优先显示部分信息，或者突出某些功能。但对普通人来说，这部分的重要性还不那么高，属于仅仅「尝个鲜」的存在。

直观的功能似乎还有些鸡肋，但最新的趋势已经开始讲求「舱驾一体」了，最表面的功夫与最硬的内核——自动驾驶和安全保障——通过芯片紧密联结在一起。AI 对自动驾驶的助益，体现在它能更好地处理传感器收集的信息，从而对交通状况提出更准确、全面的判断，同时 AI 还能不断地自我更新，与时俱进地更新数据库和算法。更进一步说，AI 将可以使车辆像人一样（或者比人更好地）应对突发状况，同时也可以实现车与车之间的通讯交流，真正做到还没实现就已经被说烂了的「万物互联」。对普通人来说，如果你开的是智能汽车，那么 AI 已经在辅助驾驶中得到了非常广泛的应用，未来的车更会极大地提升人类的时间利用效率。

汽车之外，最热的应该是机器人，这是马斯克已经投入的两项具有前瞻性的事业（当然太空探索也是，但离普通人毕竟还是很遥远）。年初的 CES 上我们在现场看到了各种各样的机器人，有可以经受人在后面踹、还可以驮重物的超稳定可行走机器人，有可以制作和搬运咖啡的机器人，还有可以巡逻检测的机器狗等。

更震撼的是各种实验室在社媒上放出的视频，比如可以做饭、洗衣服甚至套被罩的机器人，虽然背后受到比较多的指令控制，还不能完全自主，但其操作的灵活性、精细程度以及自我学习和纠错能力，已经非常惊人了。对普通人来说，这是不久的将来将真正改变日常生活的 AI 硬件，让大家都至少先过上「家务自由」的日子。

然后就是数码设备。像开头提到的，三星推出了首款 AI 手机 Galaxy S24，主要集成的是大语言模型的能力，而其实同时更刷屏的是 Rabbit R1，一个专门的 AI 设备，鼓励用户用语音命令来控制所有功能，就像你拥有了一个能听懂你说话的私人助手，你可以让它播放音乐、预定机票、控制智能家居设备、翻译、回答你的各种问题等。其实听起来有点像国内这两年迅速普及的智能音箱的进阶版。

在我写这篇文章的当下，对普通人来说，Rabbit R1 的魅力还不是那么大，因为我们可以预见这里面还会有各种应用、各种商家的兼容和接入问题，语音命令还不是那么自然，它发挥的作用还不是那么不可替代。但我相信这样的设备是一个非常喜人的开始，它真正跳脱了「通讯设备」的框架，作为一个「助手」存在着，只要它继续成长，功能更加强大，很快会有一天，孩子们会无法想像「从前没有 AI 助手的生活」。

到软件层面，AI 的应用（主要就是生成式 AI）更是「百花齐放」，每天都有新进展。最广为人知的是各种聊天机器人，比如 ChatGPT，可以回答各种问题，给出具体的工作生活建议，但信息准确度不是非常高，经常需要二次验证。在 GPT 商店开张之后，还出现了许多具有针对性的个性化聊天机器人，比如 Innovator，你告诉它你需要解决的问题，它就可以在短短几分钟内为你产出数十个创意供挑选；比如 Virtual Sweetheart，是商店里涌现的诸多情感类 GPT 当中热度比较高的一款，它提供虚拟女友式的陪伴功能，还会让你说出心目中另一半的相貌和穿着，据此生成「画像」。

在 ChatGPT 的应用之外，还有一些开发者自己搭建的简易应用，比如 Bedtimestory.ai，卖点是写儿童睡前故事，你在网页上输入你想要的故事方向，以及主要人物（可以写你的孩子的名字，或者其他你认识的人），它就会迅速生成一个童话故事，当然你也可以让它续写已有的故事，比如《白雪公主》；又比如 GPT4All，这是美国科技公司 Nomic AI 创造的应用，可以读取本地文件（比如笔记、调查报告等）作为数据库，以此为基础回答你提出的问题，或者为你撰写新的段落，并且还能自动生成参考文献目录。

无论是陪伴、答疑还是协助处理工作，这些 GPT 的衍生工具都已经基本胜任，是普通人也能够很方便地获得的助力。

另外一大板块就是图像生成和视频生成，这是两个非常关键的 AI 发展方向。图像生成的主要应用包括 ChatGPT 内置的 DALL-E，以及独立的应用 Midjourney、Stable Diffusion、RunwayML 等，只要你能描述出来，AI 就可以给你「变」出来，堪比阿拉丁神灯。

目前图像生成的主要问题是无法进行精准的控制，当 AI 生成一张图片之后，如果要让它在此基础上修改，往往只能获得一张另外生成的图片，这是由于 AI（主要是生成对抗网络 GANs）在理解用户的描述（往往比较模糊）并将其转化为图像、以及控制细节方面还存在一些局限性。不过在生成图片的时候，你提供的信息越精准和详细、参考图片越多，获得的结果就越接近你心目中的图像；另外也有专门用于提高图片分辨率和增强细节的工具，比如 Magnific。

当然图片修改还有另一个路子，就是像美图秀秀这样的修图工具，有很多也已经支持 AI 修图。CES 期间在 Google 的展台上，我们就看到了 Google 最新的修图功能，可以非常简便地对照片中的人进行移动和放大、缩小、变形等变化，AI 还会自动把对象移动之后的空白处补全，很是全面。所以，生成与修改二者的组合已经能够产出非常惊艳的图像了，相信很快会出现将这两种技术更有机地结合在一起的方法。

对普通人来说——我是说非设计从业人士，这又是一个「尝鲜」级别的技术，不过它可以用到生活里，比如生成贺卡和海报，比如让照片变更美，让自己和朋友们获得一些快乐。当然如果你是从业人士，我相信快乐会更大一些。

从图片到视频的转化已是一步之遥，比如最近大火的 RunwayML 的工具 Motion Brush，它可以实现「多重运动控制」，只要在照片上把希望动起来的对象涂抹上，并且设置好运动方向的参数，就可以生成无声的视频，全程耗时不超过 5 分钟，省时省力。另一个路径是使用你自己拍摄的视频，但是让 AI 帮忙转化风格，比如 DomoAI 就可以迅速帮你把视频中的环境、人物、物品都转换成动漫风。

支持 AI 视频生成的应用还包括 DeepArt、Adobe After Effects（使用 AI 插件）、Synthesia、Assistive 等。与图像生成类似，视频生成的问题也是很难实现精准控制，而且由于要控制的元素更多，所以难度更大，另外就是生成的视频都没有声音。令人惊喜的是现在的研究已经在往精准的运动控制、配音等方向探索，并且已经取得了一定的成果。比如腾讯联合多所大学推出的 MotionCtrl，已经可以精准控制 AI 生成视频中的摄像头运动和物体运动的轨迹了，这就可以达到镜头「推拉摇移」的效果，同时你希望放到视频中的人物、动物、物品都可以按照你想要的方式移动；又比如 SonicVisionLM，它可以使用视觉语言模型 ( VLM ) 来识别 AI 视频中的事件，并生成与视频内容匹配的声音，根据我们看到的 demo，配音已经可以做到非常贴合画面发展了。

同上节，对普通人来说——我是说非设计和视频从业人士，这又是一个「尝鲜」级别的技术，可以让自己和朋友们获得一些快乐。当然如果你是从业人士，我相信快乐会更大一些。

所有这些有趣的应用最后都不免要进入办公领域，成为生产力工具，这也是一个 AI 应用的重要发展方向。最近风头最盛的应该是微软的 Copilot Pro，它可以访问最新的 GPT 模型，支持图像创建，还可以构建个性化的 Copilot GPT，从它身上已经可以看到未来办公的雏形。微软之外也有一些更细化的小型办公应用，比如 Numerous.ai，主打将 GPT 功能嵌入 Excel，主要有三个公式：AI、INFER 和 WRITE，可以回答问题、提炼信息、进行信息分类或根据要求撰写信息等。

对普通人来说，这个你真的可以试试，虽然还需要一点学习，但是入门之后，打工的痛苦也许会减少许多。

所有这些细小的应用，当他们组合在一起的时候，就会成就更宏大的场面，比如酷炫的电影—— Twitter（X.com）上已经有博主利用这些工具做出了以狗和马为主角的小电影，这些小动物穿着人类的铠甲，像人类一样在「战场」上奔忙，一幕幕都是我们无法实际拍摄的画面，但 AI 让它活灵活现，再结合 Vision Pro 这样的增强现实设备，我们很快就将看到一个非比寻常的新世界。

这一切都是离科技前沿非常「远」的我们已经能够获得的新奇体验和实用工具，在搜寻和研究这一切的每一刻，我都能够感受到科技之光正在迅速传递到毛细血管的末梢，到达每一个人的小小设备里。这正是科技发展的意义，也正是我们关心的事情。

往后，我们会更多地分享每个人触手可及的 AI 设备和应用，让你也能更便捷地获取科技进步带来的福利。让我们一起更早地跨进那个真正智能的世界吧。

也欢迎在微博上关注 @傻瓜 AI 冒险家-Stella 哟。

原创文章，作者：蔡康淇Stella，如若转载，请注明出处：https://www.cydao.com/22518.html

你也从 AI 的野蛮生长中，获得快乐了吗？| 傻瓜 AI 冒险家

相关推荐