关于Sora的思考

September 15, 2024 (4mo ago)

导读:

在这篇文章中,我探讨了Sora作为一个强大引擎的潜力,超越了传统视频生成模型的界限。Sora不仅能够模拟真实世界,还可能重新定义视频内容创作的方式,使得个人创作者能够独立完成团队的工作。 尽管目前存在风格控制和算力成本等挑战,但Sora的前景依然光明,预示着短剧制作和内容创作的革命。

在我看来,Sora不仅仅是一个简单的视频生成模型,更像是一个类似于UE5这样强大的引擎。引擎的本质在于它能够模拟真实世界,掌握复杂的渲染技术、直观的物理规律、长期的逻辑推理以及深入的语义理解。就像官方发布的视频所展示的那样,画家在画布上留下的新笔触随时间而变化,或者一个人在享用汉堡时留下的咬痕,都体现了这种生动的模拟能力。

一个值得注意的特点是,Sora在训练过程中没有对视频素材进行裁剪,而是使用了原始尺寸。这使得它能够为不同设备直接生成原生纵横比的内容,这与三个月前的Pika形成了鲜明的对比——Pika通常会将视频尺寸缩小到统一的256x256,以加快训练速度。 我认为,Sora可能会对视频内容创作行业带来一场革命。传统的影视制作过程通常分为前期、中期和后期,而AI的出现不仅使得生产变得前所未有的容易,同时也创造了新的交互范式。未来,我们或许可以通过自然语言直接修改图像或视频,这意味着一个人就可以完成一个团队的工作。

当然,内容平台不必过于焦虑,因为生产端的变化需要时间才能影响消费端。就像手机的出现并没有立即取代相机一样,我们需要一个逐步适应的过程。然而,目前Sora的风格尚未完全可控。就像一位摄影师无法精确控制镜头,Sora的风格自定义功能仍需提升。如果风格无法准确控制,对于大多数商业项目而言,其实用性会受到限制。但至少,从长远来看,前景依然光明。这就是当前AI面临的一大困境:AI的算力主要依赖于冯·诺依曼架构的GPU,而非冯架构的解决方案,如忆阻器等,尚未成熟。高昂的算力成本限制了真正AI的普及。

理想中的AI应当在各行各业中提高生产力,真正推动人类社会的发展。这就是AI赋能全行业的意义。目前的AI,依我浅显的理解,主要用于智能对话、智能客服、高效生成图像和视频等,整体上仍处于相对狭窄的应用领域。然而,各个行业的知识是独特的,并不是互联网上的各种文字和图片素材能够完全涵盖的。要实现各行业的赋能,需要针对特定行业的知识库进行搜集和训练。而每个行业的知识更新迅速,获取和维护这些知识的成本相当高,这就形成了推广AI的障碍。 OpenAI的ChatGPT和Sora能否跨越这360个行业,进行知识训练与推广应用?这无疑是巨大的挑战。训练成本高昂,跨行业的难度也不容小觑。那么,如何提升市场占有率呢?

最终,OpenAI可能只能提供类似IaaS的基础算力和存储服务,而丰富的PaaS和SaaS形式的AI服务,则需要各行业的领军企业来提供。 对于内容创作者而言,Sora并不是挑战,而是助力,尤其是对网络文学作者而言,极其友好。以前我常想,无限流和末日废土文中的架空场景,光靠文字难以营造沉浸感,如今这个问题有望得到解决。 未来,只要能够进行文字创作,就能生成影像。Sora将导演、摄影和演员的技术活儿都自动化了。短剧的生产可能会迎来一次真正的变革——只要会写剧本,就能进行制作,一个编剧就能充当一个团队。

See you next year for the 2024 blog refresh 🫡