推广 热搜： 收购ACF 石英加热管, 800 T型槽试验平台深圳回收ACF 求购ACF T型槽装配平台回收ACF 求购日立ACF T型槽地梁

Sora:深入谷歌videopoet理解全模态视频生成resume什么意思

日期：2024-04-11 作者：Agent的潜意识浏览：39 评论：0

核心提示：来源：Agent的潜意识今天我们来正式研究谷歌的最新视频合成论文videopoet: A Large Language Model for Zero-Shot Video Generation。这篇论

来源：Agent的潜意识

今天我们来正式研究谷歌的最新视频合成论文videopoet: A Large Language Model for Zero-Shot Video Generation。这篇论文是一个划时代的产品，之所以这么说，他有两个核心贡献：1、将文本、视频、图片、音频统一编码成一个codebook空间，然后用LLM那套训练范式训练。2、效果上，他可以合成5秒(41帧）的视频，核心突破是它可以保持运动的一致性。这一点（ motion）很难，因为人类对动作连贯性很敏感。稍微有些别扭就觉得视频很假。

这篇文章的方法可以说跟Sora差别很小，像文本视频音频统一编码就完全是一样的。核心差别在于训练任务的不一样上。Sora跟李飞飞他们的工作WALT [4] 是一样的，就是在训练任务上，一个扩散模型；而videopoet是一个mask自回归模型。

这两种范式各有千秋，前一种合成图片视频的真实场景逼真度更高，后一种方法合成视频音频的连贯性更好。应该结合起来一起用。

之所以有这样的区别，我仔细思考了下背后的数学逻辑：前者的diffusion扩散模型，他是针对原图增加高斯噪声，然后让模型学习去燥，这样模型更能学到逼真度高的画卷方法，他让模型去学习了像素的真实分布规律。这一点我多讲一句，我想起学校生涯的时候导师研究隐写分析的领域知识，就是将一张图片里的一些像素值改掉，然后让检测器检测出来哪些图片有篡改，哪些没有。那么这个扩散模型其实就是干这个活，只是不是手工篡改像素值，而是利用高斯噪声来篡改像素值。而后一种mask回归任务呢，他主要特征是前一帧预测后一帧，或者是图片中心预测整个四周，四周预测中心或者左边预测右边这些任务，他整个任务设计的就是next token的意思，当然就主要学习视频的连贯性了。

因此，sora你可以理解为WALT的改进版。并不神秘。模型结构变大了，然后数据变多了，然后更高清了。效果更好了。后面我们再研读WALT。

言归正传。我们来正式解刨videopoet。这篇文章知识密度很高。我看了好久才搞懂。

Sora技术6:深入谷歌videopoet理解全模态视频生成

scaling law的正确姿势：训练videopoet需要多少GPU

我们来认真盘一下这个事情。他也是大家很关心的事。

Mask模型本质是一个分类器，预测next token是什么。经典图像分类工程中，imagenet数据集，共1000个类别，你可以认为是token的cookbook是1000 的size，然后总数据集是128万，合每个类别1300张图片的样子。这个类比的意思是，一个token的全分布概率计算，需要1300个样例来统计。

GPT1的词典大小是40,478 个，GPT-2的词典大小为50257个，因此词典差别不是很大，那么我们姑且假定GPT4的词典大小为6万，他的数据集呢，是13万亿个 token，也就是每个token有2亿个样例来计算全分布概率才能达到GPT4的效果。

题外话：

大模型之所以大，核心问题就是词典大小太大，导致最后一层的预测softmax层参数巨大，需要大量的样例才能将这些参数完整训练出来。因此造成了大的资源浪费。我觉得这个是一个巨大的bug。是否可以分层分group分步执行，将这个计算量降低，因为本来就不符合逻辑，这么巨大的cookbook其实不符合人类的认知逻辑的，我们会将礼拜天和星期日当一个token，而LLM的话就是两个，其实是可以压缩的。

原文链接：http://www.souke.org/news/show-319966.html，转载和复制请保留此链接。
以上就是关于Sora:深入谷歌videopoet理解全模态视频生成resume什么意思全部的内容，关注我们，带您了解更多相关内容。

标签： 模型是一个视频词典连贯性图片像素大小

打赏

更多>同类资讯

0 条相关评论

推荐资讯

特别提示:本站信息由相关企业自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。[浏览本网推荐采用IE8.0及以上浏览器]
免责声明:本站部分资源来自互联网或网友发布，所有数据仅供参考，如有不当、有误、侵犯隐私，请联系我们及时删除或纠正，本站不承担任何法律责任!
免费信息发布平台 1288.top 搜客商务网 2010-2024

• 6000字超全解读之云产品使用体验度量模型面基是	• 数据分析终极难题：多影响因素下，归因模型怎么
• 如何让品牌的价值“看得见、摸得着”？如何帮助	• 搭建经营分析模型，这可能是最好的策略崩的拼音
• 数据分析十大模型：OGSM模型整个夏天想和你环游	• 三张PPT，掌握营销战略和落地规划的方法你在哪
• 文生视频的一年，那些AI化的游戏将迎来Sora革新	• 详解Sora，为什么是AGI的又一个里程碑时刻？天
• OpenAI发布“王炸”级AI视频模型Sora找个适合自	• 世界五百强都在用的：电商BDZF模型刘亦菲暴光图