关于Sora的思考

导读：

在这篇文章中，我探讨了Sora作为一个强大引擎的潜力，超越了传统视频生成模型的界限。Sora不仅能够模拟真实世界，还可能重新定义视频内容创作的方式，使得个人创作者能够独立完成团队的工作。尽管目前存在风格控制和算力成本等挑战，但Sora的前景依然光明，预示着短剧制作和内容创作的革命。

在我看来，Sora不仅仅是一个简单的视频生成模型，更像是一个类似于UE5这样强大的引擎。引擎的本质在于它能够模拟真实世界，掌握复杂的渲染技术、直观的物理规律、长期的逻辑推理以及深入的语义理解。就像官方发布的视频所展示的那样，画家在画布上留下的新笔触随时间而变化，或者一个人在享用汉堡时留下的咬痕，都体现了这种生动的模拟能力。

一个值得注意的特点是，Sora在训练过程中没有对视频素材进行裁剪，而是使用了原始尺寸。这使得它能够为不同设备直接生成原生纵横比的内容，这与三个月前的Pika形成了鲜明的对比——Pika通常会将视频尺寸缩小到统一的256x256，以加快训练速度。我认为，Sora可能会对视频内容创作行业带来一场革命。传统的影视制作过程通常分为前期、中期和后期，而AI的出现不仅使得生产变得前所未有的容易，同时也创造了新的交互范式。未来，我们或许可以通过自然语言直接修改图像或视频，这意味着一个人就可以完成一个团队的工作。

当然，内容平台不必过于焦虑，因为生产端的变化需要时间才能影响消费端。就像手机的出现并没有立即取代相机一样，我们需要一个逐步适应的过程。然而，目前Sora的风格尚未完全可控。就像一位摄影师无法精确控制镜头，Sora的风格自定义功能仍需提升。如果风格无法准确控制，对于大多数商业项目而言，其实用性会受到限制。但至少，从长远来看，前景依然光明。这就是当前AI面临的一大困境：AI的算力主要依赖于冯·诺依曼架构的GPU，而非冯架构的解决方案，如忆阻器等，尚未成熟。高昂的算力成本限制了真正AI的普及。

理想中的AI应当在各行各业中提高生产力，真正推动人类社会的发展。这就是AI赋能全行业的意义。目前的AI，依我浅显的理解，主要用于智能对话、智能客服、高效生成图像和视频等，整体上仍处于相对狭窄的应用领域。然而，各个行业的知识是独特的，并不是互联网上的各种文字和图片素材能够完全涵盖的。要实现各行业的赋能，需要针对特定行业的知识库进行搜集和训练。而每个行业的知识更新迅速，获取和维护这些知识的成本相当高，这就形成了推广AI的障碍。 OpenAI的ChatGPT和Sora能否跨越这360个行业，进行知识训练与推广应用？这无疑是巨大的挑战。训练成本高昂，跨行业的难度也不容小觑。那么，如何提升市场占有率呢？

最终，OpenAI可能只能提供类似IaaS的基础算力和存储服务，而丰富的PaaS和SaaS形式的AI服务，则需要各行业的领军企业来提供。对于内容创作者而言，Sora并不是挑战，而是助力，尤其是对网络文学作者而言，极其友好。以前我常想，无限流和末日废土文中的架空场景，光靠文字难以营造沉浸感，如今这个问题有望得到解决。未来，只要能够进行文字创作，就能生成影像。Sora将导演、摄影和演员的技术活儿都自动化了。短剧的生产可能会迎来一次真正的变革——只要会写剧本，就能进行制作，一个编剧就能充当一个团队。

See you next year for the 2024 blog refresh 🫡