OPENAI-SORA+技术文档总结+中英对照原稿

阅读 178 格式 pdf 大小 1.21 MB 共8页2024-02-21 22:28:50发布于四川

海报

OPENAISORA技术报告原文+译文+报告总结要点总结模型路径：1.架构为扩散模型（diffusionmodel）+transformer2.训练时先用预训练模型把大量的大小不一的视频源文件编码转化为统一的patch表示，把时空要素提取作为transformer的token进行训练。3.模型效果好和超大量的数据集和更多的运算时间息息相关优势：1.人物和背景的连贯性，即时人物运动出了相机范围再回来时还保持同样特征2.自然语言的理解程度很高3.可以在同一个种子下生成不同尺寸（横向竖向）的视频适配不同设备4.可以生成长达1min高清视频5.可以以文字，图片，视频作为控制要素控制输出结果不足：1.对于物理规则了解较弱，比如吹气后蜡烛不会熄灭，左右不分，玻璃掉落不会碎2.对于算力要求较高（猜测）可以实现：1.文生视频，图生视频，图+文生视频，视频...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

港仔研报的最新文档