OpenAI首个视频生成模型发布,正式加入文生视频的战局!

闲蛋黄 2024-02-21 09:11:48

北京时间2月16日凌晨,OpenAI CEO山姆·奥尔特曼(Sam Altman)在公布刷屏业界的文字生视频产品Sora后,在社交平台X上发文称:“OpenAI所有关键资源均已到位,专注于打造AGI(通用人工智能),你或许应该考虑加入我们。”

根据OpenAI官方介绍,用户可以通过使用自然语言提示词(Prompt),生成长达1分钟的视频。Sora模型对语言有深刻的理解,因而能够准确地理解提示词,并生成令人信服的人物,而且可以在一个生成的视频中创建多个镜头,在这些镜头中准确地保持角色和视觉风格的一致性。

Sora60秒视频模型范例,提示词为:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上,她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。视频就自动生成了,不过该60秒视频并非一镜到底,而是在第37秒切换特写镜头。

在Sora模型发布之前,Runway、Pika等AI视频创业公司仅能做到几秒左右的视频连贯性。半年前,Runway将视频长度从4秒提升至18秒,且将效果提升至4K超高清水平,已被业界视为“天花板”。然而,Sora模型将长度从18秒拉长至60秒的水平,且效果逼真、细节生动,将行业的水位提高到了难以企及的高度。

影响及预测?

有人称之为王炸、视频大模型、颠覆性产品,有人甚至预测文生视频将改变视频行业的格局。然而,文生视频真的能做到它所宣传的那样吗?答案是:开香槟庆祝,还太早!

Sora虽然已经比此前行业内推出的文生视频好很多,但仍不成熟,难以准确模拟复杂场景的物理原理,无法理解因果关系。比如说,Sora能生产一个好视频,但视频的主题、脚本和分镜头策划、台词的配合,都需要人的创意,至少需要人给它提示词。Sora可能给广告业、电影预告片、短视频行业带来巨大的压力,但目前尚无法取而代之。在短剧生产制作中,我们已经可以用AI工具一键换脸、对口型等功能,这么个不成熟的产品是很难生存的。所以Sora不一定能那么快击败TikTok,反而可能先成为TikTok的创作工具。

目前仅有一些视觉艺术家、设计师和电影制作人(以及OpenAI员工)获得了Sora访问权限。那么OpenAI为何急于推出这款产品呢?讲故事,圈钱!

OpenAI的那些年

2005年,当时只有19岁山姆·奥尔特曼从斯坦福大学退学,与他人共同创立了Loopt,一家社交媒体公司,这个应用程序可以告诉你朋友在哪里。同年这家公司成为进入硅谷最著名的孵化器Y Combinator的首批创业公司。Loopt未能起飞,但奥尔特曼把它卖掉了,创办了小型风险投资公司Hydrazine Capital,筹集了约2100万美元。

2014年,YC的联合创始人格雷厄姆和利文斯顿(Jessica Livingston)出人意料地聘请奥尔特曼作为格雷厄姆的继任者来管理YC。格雷厄姆非常欣赏奥尔特曼,2006年第一次见到二十出头的奥尔特曼,“当时见到他不到三分钟,就在想,啊,19岁的比尔·盖茨估计也就这样了吧!”

2015年7月在帕洛阿尔托的一场小型晚宴上,奥尔特曼和马斯克决定创办一个非营利性的人工智能研究实验室。那时,谷歌刚刚收购了一家总部位于伦敦的人工智能公司DeepMind(就是推出了打败围棋冠军的AlphaGo的公司)。在业内人士看来,如果DeepMind成功了,谷歌可能会垄断AGI技术。AGI即Artificial general intelligence的简写,指通用人工智能。专注于研制像人一样思考、像人一样从事多种用途的机器智能。目前主流AI(如机器视觉、语音输入等)都属于专用人工智能。

2015年12月,OpenAI在美国旧金山成立——旨在成为DeepMind和谷歌无法做到的一切。它作为一个非营利组织运营,承诺发布其研究成果,并开源其所有技术,其对透明度的承诺体现在其名称中:OpenAI。

OpenAI捐助者名册阵容豪华,不仅有特斯拉的创始人马斯克(Elon Musk),还有全球在线支付平台PayPal的联合创始人彼得·蒂尔、Linkedin的创始人里德·霍夫曼、创业孵化器Y Combinator总裁奥尔特曼(Sam Altman)、Stripe的CTO布罗克曼(Greg Brockman)、Y Combinator联合创始人Jessica Livingston;还有一些机构,如YC Research,Altman创立的基金会、印度IT外包公司Infosys和亚马逊网页服务。OpenAI也吸引了许多技术大牛加入,如Ilya Sutskever(在进入OpenAI之前,他在谷歌开发AlphaGo), Carlos Virella, James Greene, Wojciech Zaremb等。

2016年3月9日,AlphaGo与围棋冠军李世石围棋大战,最终以4:1胜出。一年之后,新版的AlphaGo又以3:0战胜了围棋冠军柯洁。之后发布的AlphaZero更是让人惊叹,它在三天内自学了三种不同的棋类游戏,包括国际象棋、围棋和日本将军棋,而且无需人工干预。这是一种人类从未见过的智慧。这些成果好像验证了2015年,大家在聚会上的判断,2016年4月,谷歌著名的深度学习框架TensorFlow发布分布式版本;8月,Google发布基于深度学习的NLU框架SyntaxNet;9月,Google上线基于深度学习的机器翻译。

OpenAI的早期进行了大量的实验,并于2016年发布了“OpenAI Gym”,这是一个用于开发和比较强化学习算法的工具包。看起来,OpenAI离战胜谷歌的预期目标还很远。2017年开始,一些人工智能大牛离开了OpenAI,如Ian Goodfellow和Pieter Abbeel等。

2018年6月OpenAI发表的论文“通过生成式预训练提高计算机对语言的理解”奠定了今天ChatGPT的基础。这篇论文介绍了生成式预训练Transformer模型的基础架构,后来这也演变成了该公司的旗舰产品ChatGPT。

因为 GPT系列模型的成功,OpenAI决定再融资几十亿美元来发展AI,因为模型越大、参数越多、训练AI模型需要的钱也越多,一年花个几千万美元来计算是刚性开支。而且,人工智能研究人员的薪水也不便宜,税务记录显示,首席科学家Ilya Sutskever在实验室的头几年,年薪为190万美元。

烧钱的问题同期也在 DeepMind身上。在当年被谷歌收购以后,DeepMind短期内并没有为谷歌带来盈利,反而每年要烧掉谷歌几亿美元,2018年的亏损就高达4.7亿英镑,2017年亏损为2.8亿英镑,2016年亏损为1.27亿英镑,烧钱的速度每年大幅增加,好在DeepMind有谷歌这棵大树可靠。

但是,OpenAI是非营利组织,无法给到投资者商业回报,就难以获得更多资金。2018年,在帮助创立该公司三年后,金主爸爸马斯克也辞去了OpenAI董事会的职务。原因是“消除潜在的未来冲突”,因为特斯拉专注于无人驾驶AI,在人才方面存在竞争关系(当然是借口,地主家也没有余粮)。

根据该公司2019年的博客文章,OpenAI希望在履行其使命的同时提高其融资资金的能力(公司想从非营利模式转变为“有上限的盈利capped-profit模式”)。根据美国国税局的规定,营利性机构和非营利组织从根本上来说就是相互矛盾的。为了解决这一税务难题,OpenAI提出了一种新组织架构:让非营利组织控制营利性机构,并为投资者提供以100倍为“上限”的回报。

微软被认为在人工智能领域落后于其竞争对手,其首席执行官Satya Nadella急切地想证明,他的公司能够在技术的最前沿发挥作用。在微软投资了10亿美元之后,这种复杂的管理架构也正式生效。2019年3月,OpenAI正式宣布重组,创建新公司OpenAI LP。2019年5月,奥尔特曼辞去YC孵化器总裁的工作,回OpenAI做CEO。奥尔特曼的加入,虽然解决了关键的资金问题,但他的风格也导致了团队价值观的分裂。因为奥尔特曼不是科学家或人工智能研究人员,他的领导风格是以产品为导向的,他让OpenAI的技术研发聚焦在更具有商业价值的方面。

2020年,在外部资金的支持下,OpenAI推出了GPT-3,这是一种能够理解人类语言,并生成类人类文本的大型语言模型(LLM)。对于OpenAI和整个AI社区来说,这是一个标志性的时刻。随着不断地训练,该LLM变得越来越聪明(听得懂人的指令)。

2022年12月,GPT-3的发布标志着OpenAI的另一个重要里程碑,为面向消费者的应用程序“ChatGPT”奠定了基础。ChatGPT迅速引起了全球的关注。上线短短两个月,突破了一亿用户。OpenAI顺势推出了付费订阅模式,以及迄今为止最复杂的模型GPT-4。GPT-4比其前身先进约10倍,而且不仅能够分析文本,还能分析表格、图像和语音。

大概是看到了技术的应用前景,微软决定下重注。微软认为,OpenAI的这些创新激发了人们的想象力,把大规模的AI作为一个强大的通用技术平台,将对个人电脑、互联网、移动设备和云产生革命性的影响。2023年1月23日,微软表示,它正在扩大与OpenAI的合作伙伴关系,以290亿美元的估值继续投资约100亿美元,获得OpenAI 49%的股权。

根据《财富》杂志看到的文件显示,在新投资完成后,在OpenAI的第一批投资者收回初始资本后,微软将有权获得OpenAI 75%的利润,直到它收回其投资的130亿美元,这一数字包括之前对OpenAI的20亿美元投资,该投资直到去年1月《财富》杂志才披露。直到这家软件巨头赚取920亿美元的利润后,微软的份额将降至49%。与此同时,其他风险投资者和OpenAI的员工也将有权获得OpenAI 49%的利润,直到他们赚取约1500亿美元。如果达到这些上限,微软和投资者的股份将归还给OpenAI的非营利基金会。本质上,OpenAI是在把公司借给微软,借多久取决于OpenAI赚钱的速度。

马斯克不断抱怨 OpenAI偏离了自己的设想。2023年2月,他 “召唤” 了奥尔特曼到推特总部同他会面,并要求奥尔特曼带来OpenAI的创始文件。马斯克质疑他,要求他证明自己凭什么能够合法地把一个由捐款资助的非营利组织转变成一个营利组织。奥尔特曼试图向马斯克证明这一切都是合法操作,坚称自己既不是股东也不是套现者,他还向马斯克提供了新公司的股份,但马斯克拒绝了。

2023年2月17日,马斯克在推特上写道:“OpenAI是作为一家开源的非营利公司创建的,以制衡谷歌,但现在它却已经成为一家由微软有效控制的开源、利润最大的公司。”

2023年3月15日,马斯克在推特上又写道:“我仍然很困惑,我捐赠了约1亿美元的非营利组织是如何变成300亿美元市值的营利组织的。如果这是合法的,为什么不让其他人这样做?”他之后又发布了 “我相信一切都会好起来的”,却在一个表情包中附上了这样的文字:“我意识到人工智能是人类有史以来最强大的工具,现在掌握在无情的垄断企业手中。”

对于马斯克所做的这一切,奥尔特曼保持了缄默,并没有反击,甚至还说对于马斯克的行为表示理解。如今,OpenAI每天能够创造出约1000亿字的内容,而全世界的人类每天总共能产生约100万亿字。我们认为,世界对AI基础设施的需求,包括芯片制造能力、能源供给、数据中心等,已经远远超过了目前的建设计划。OpenAI面临的芯片短缺,即便微软很有钱,但奥尔特曼张口就是7万亿美元……奥尔特曼不仅想发展AGI,还想用这钱彻底改造全球的半导体行业。

那么OpenAI能赚多少?根据《金融时报》的最新报道,OpenAI的年收入在2023年12月突破了20亿美元大关。其主打AI产品ChatGPT的爆炸性成功,让它成为史上增长最快的科技企业之一——与谷歌和Meta平起平坐。在微软的大力支持下,OpenAI有信心在2025年将收入翻一番以上。自己兜里有四五十,却盯着橱窗里的万元包包?

其实,OpenAI早已陷入芯片荒(兜里可能还没四五十)。训练GPT-4,用了大约25000块A100 GPU。而训练GPT-5,还需要5万张H100。如今,英伟达的H100售价为2.5万至3万美元(算算吧,OpenAI资金缺口有多大?可不得上点抓眼球的项目,好编故事继续搞投资嘛)。

为了实现目标,奥尔特曼需要撬动包括投资人、行业合作伙伴和各国政府在内的复杂全球网络,尤其是美国。奥尔特曼联系上了中东土豪们,比如阿联酋的一些投资者。其中身份尤为显赫的,就是阿布扎比最富有、最有影响力的人物之一——谢赫·塔赫努恩。

本来,中国也可以给OpenAI点支持,但你们忘了我们正在被漂亮国制裁和封锁(不是我们不想投资未来)。现在只能你们继续努力,为人类做贡献了!

0 阅读:14

闲蛋黄

简介:奇闻异事名人传记,传播正能量,真善美!