在中国人工智能还在忙着学习核心价值观的时候,Sora的出现再次震惊了世界,很多人以为中国人工智能发展的最大阻碍来自于美国对高端芯片的封锁。
但事实并非如此,中国人工智能脚下被撞倒的石头是怎么掉下来的?
今天我冒着被关进黑屋子的危险来跟大家讲这个话题。
有人说,如果美国当初不对高端芯片实施封锁,如果中国有更多像 、Ilya 这样的技术专家,如果中国投资者能有更长远的眼光,现实是没有那么多的如果。
中国的人工智能依然有一个无法绕过的根本障碍,也就是说,中国人工智能的天花板注定在未来相当长一段时间内无法被打破。
那么,这个难以逾越的障碍到底是什么呢?
听我说,废话更准确(偷笑)
要理解这个问题,首先要了解最前沿的人工智能
比如 Chat GPT、Grok、Bard、Sora 等 AI 模型,其根本原理就是自学习型 AI。回想两三年前,对于普罗大众来说,AI 的发展似乎停滞了很久,根本没人听说过 AI 的消息。
我们了解前沿科技最直接的方式大多来自于好莱坞科幻电影,好莱坞电影多年来对机器人、前沿人工智能有着诸多的幻想。
比如:第一部讲述人工智能觉醒并毁灭人类的故事的《终结者》上映于1984年,不知不觉已经过去了40年。
但现实是,人工智能这几十年好像没什么发展,工厂里的机械臂从上世纪60年代就有了,到今天依然如此。
直到几年前,普通人所能接触到的最先进的人工智能还只是类似苹果的Siri,小爱同学、小度等一些儿童使用的学习机器人,距离人类的智商还有很长的距离。
所以当Open AI在2022年11月突然出现的时候,立刻就震惊了世界,因为它所展现出来的智能,远远超越了我们之前所有所谓的人工智能。
发布仅两个月,月活跃用户就达到1亿,成为史上增长最快的应用。但它并不是凭空而来的。公众第一次看到能够学习并变得更加强大的人工智能是在2016年。
当谷歌战胜世界围棋冠军李世石的消息传开后,震惊了全世界!这被认为是人工智能领域的一项开创性成就。因为在计算机科学领域,围棋一直被公认为是人类无法被计算机征服的游戏。
我们都知道,早在1997年,IBM的深蓝计算机就打败了当时世界上最强的国际象棋大师、俄罗斯的盖瑞。
但这基本只能算是对计算机计算能力的强行征服,并不能体现计算机的智能。国际象棋两步之后大概有400种可能性,而围棋只经过两步就有差不多35万种可能性。每一步之后增加的可能性都是成倍增加的。一盘围棋下完的可能性就是10的170次方!
这比宇宙中原子的总数还要多得多。这就是为什么在深蓝击败卡斯帕罗夫近30年后,即使是苹果手机的计算能力也是深蓝的1000多倍。即使是世界上最强大的超级计算机——美国橡树岭国家实验室的超级计算机,其计算能力也是深蓝的8800万倍。
超级计算机单凭算力还无法战胜人类围棋大师,但最终谷歌在机器学习和深度学习方面的突破,创造出了智能的,打破了计算机永远无法战胜人类围棋大师的限制。
很多人不知道的是,它输给了李世石的第四局。人类围棋选手下完一局后,必须回家休息养精蓄锐,第二天才能重新精神抖擞。但 在输掉比赛的那天晚上,默默地和自己下了数百万盘棋,不断学习、优化自己。
所以在那一战落败之后,他就再也没有输给过人类,而且他和世界顶尖高手的对战记录是60:0。更恐怖的是,升级版的Zero以100:0的比分击败了他。
曾八次夺得世界冠军的中国围棋选手柯洁在遭遇三次连败后沮丧地表示,人类用了几千年的时间不断改进围棋战术,而计算机却告诉我们,人类完全错了。看到这里,我甚至可以说,人类根本就没有触及围棋的真谛。
这为最新一代人工智能的发展奠定了蓝图,即基于大量数据训练的深度计算机神经网络,具有自学习能力的人工智能。
六年后,基于机器学习生成的大型语言模型Chat GPT发布,GPT对人类语言和人类世界的理解震惊了世界。
2023 年 4 月,马斯克甚至联合 1000 多名 AI 行业科学家和工程师签署了一封公开信,要求 Open AI 停止 GPT 的开发 6 个月。等到我们能对其安全性有更完善的规划后再继续。但机器学习的发展速度丝毫没有减缓。
去年11月,GPTS诞生。GPTS可以让任何新手用GPT,只需要几句简单的语句,就能生成一个APP。GPTS的诞生,瞬间让全球上千家人工智能公司,以及那些靠开发APP为生的科技公司,一夜之间破产。
因为它们已经没有存在的必要了。再就是最近最火的Sora,虽然Sora还没有正式向公众发布,只是经过一些业内人士的测试,但它所展现出来的智能,足以让任何参与视频制作的人感到恐惧。
Sora 可以根据简单的人类文本描述自动生成视频。
下面是Sora的几个演示,现在看到的并不是真实的场景,这些人在这个世界上根本不存在,都是人工智能Sora自己生成的。
查看下一个
这看上去像是一部关于太空的好莱坞科幻大片,但实际上你只需要告诉Sora几句简单的句子,它就会自动生成。
可爱的狗狗在雪地里玩耍。以前的动画片里雪是很难处理的,但在 Sora 中看起来并不奇怪。
对于雪景和樱花的镜头运动丝毫不比老导演差,很难想象这个世界上没有这位老人的存在,所有的细节都那么自然。
Sora生成的视频稳定,连贯清晰,已经达到电影级别。这只是测试版。提醒大家,Sora目前只是邀请测试,国内还没有任何人或公司获得测试资格,端口也未开放。抖音上卖Sora课程和工具的绝对是骗子,千万不要买!
说了这么多,是为了让大家明白一个道理:机器学习与计算机深度神经网络从根本上改变了人工智能的发展速度。在过去一年多的时间里,人工智能的发展与迭代速度已经让我们感觉到终极人工智能AGI的诞生已经为时不远。
谁错过了这一轮智能革命的冲击,谁就如同200年前错过了工业革命的国家,至少会落后几百年,无法追赶。因此,目前对机器学习的研究可以说是所有技术的重中之重。
现在重点来了,机器学习不是凭空而来的,机器学习始于人类给机器提供大量数据,帮助机器理解世界,最终创造力就诞生了。这就好比一个刚出生的婴儿,什么都不懂,它要先通过观察世界,从书本、视频等学习已有的知识,掌握了这些知识之后,才能开始产生自己的创造力。
所以对于机器学习来说,除了算力、算法之外,最重要的就是数据,没有海量的数据,就不可能训练出人工智能。
现在我们终于进入了这个问题的重点。
制约中国人工智能未来的根本障碍,我称之为中国人工智能无法避开的致命弱点,就是数据!
大家总是在讲数据,却忘了人工智能真正需要的是高质量的数据,垃圾数据就会产生垃圾人工智能。
那么什么是高质量数据?
活跃的论坛、专业新闻、学术论文、优质代码、书籍等等,我们来看看训练数据的来源。
维基百科、论坛、公开的网络存储库、技术问答社区、代码、Air Xiv 论文、Real News 档案、医疗数据等。
我上面提到的数据源在中国防火墙内是无法访问的,除了专业内容网站,比如医学和科学论文。几乎所有的开放社区,比如维基百科开放书籍论坛等。
不管是可访问还是不可访问,中文互联网产生的数据占比低到可以忽略不计。比如,收集全球互联网内容并建立公开的在线知识库,其中英文内容占一半,中文内容占不到5%。这是困扰国内很多试图训练大型中文模型的人工智能专家的问题。
中国的数据并不多,没有好的中文数据,中国注定要依赖全球互联网数据,这也是为什么百度文心易言刚上线时,就被网友们认为是GPT的空壳。
这就是为什么当温心一言被要求画一辆巴士时,他画了一辆巴士。因为在英文中,计算机巴士和巴士是同一个词。换句话说,作为一名中国模特,温心一言为什么要先将用户需求翻译成英文再画呢?
原因很清楚,就是跟后面的端口相连,真正的智能部分是外包的,像文心懿言这样的例子还有很多,比如让画一个弹簧,就画一个,因为英文里和都是这么叫的。
当被要求画一只鹤时,他画了一只鹤,因为在英文中它们都叫。这证明文心懿言在画这幅画之前先把中文译成了英文。问题就出在英文单词的多义性上。
当然,在百度被曝光之后,上述例子也逐渐被纠正,毕竟我们百度的人手还够。
除了百度,、今日头条母公司字节跳动也被曝出使用GPT端口。而这次可谓是实锤了。字节跳动也承认,就在三个月前,Open AI 暂停了字节跳动的GPT账号。理由是字节跳动违反了服务条款,利用Open AI的API开发与其竞争的AI模型。基本就是抄作业。
当然,字节跳动后来在公开声明中承认,他们只是在种子计划发展初期使用了GPT产生的数据,后来就全部删除了。信不信由你。
但这些也说明了一个事实,我们在开发自己的大型模型的早期阶段必须使用GPT数据。
为什么?我上面说了,中文的优质数据太少了。说到这里,有人可能会说,没关系,我们这么多人每天都在上网,中文数据会越来越多。
但不幸的是,情况不容乐观。
我来告诉你为什么。任何高质量数据的产生都需要一个基本前提,那就是一个开放的生态系统。一个可以自由讨论和发布的社区。但这恰恰是中国现行体制下绝对不允许的。这就是我所说的致命弱点!
让我们一起回顾一下这些事件:
2008年,、和未被禁止。后来逐渐地,它们相继不再使用。
2009年并被禁止。
2010年,谷歌退出中国搜索。
2014年,所有外围设备,地图和游戏被彻底禁用。
维基百科于 2015 年被封锁。
最终,就连专门提供电影信息的网站IMDB也被封禁。
原因很简单,因为当时 IMDB 也有一个供人们讨论电影的论坛。
我真的说不出接下来会发生什么。
我只能重复一遍:信息茧房,信息茧房,信息茧房,没有数据,没有数据,没有数据,没有数据。
有些话我只能这样凝练。
现在,随着grok、bard、sora等具有自我学习能力的人工智能的诞生,高质量的数据已经变得比黄金和石油更加珍贵。
从 2022 年 11 月 GPT3.5 发布到现在,才过了 15 个月,但这期间我们见证了 GPT4、GPTS,还有现在的 Sora,不仅迭代速度惊人,而且每次迭代实现的技术突破也让人震惊,远超上一代。
Open AI 首席执行官萨姆·阿尔特曼至少在 5 个公开场合表示,GPT5 和 AGI 将在今年发布。不久前,萨姆宣布了一项 7 万亿美元的计划,旨在打造人工智能生态系统。日本的孙正义宣布将投资 1000 亿美元用于人工智能芯片。
Meta 的扎克伯格还要投资 105 亿美元建设人工智能技术设施,这些都只是公开的信息,肯定还有很多我们不知道的计划正在如火如荼地推进,要知道,上述这些人和这些公司本身并没有受到高端芯片封锁的限制。
在硬件已经出现瓶颈的情况下,我们仍在封锁数据,强迫国产人工智能符合我们的价值观。这就像在比赛中已经跛脚却还蒙住眼睛一样。
正如英伟达CEO黄仁勋所说,人工智能的竞争是赢者通吃的竞争。
但也有一些人表达了不同的看法,如果我们贸然开放信息渠道,国外科技强国就会毫无顾忌地掠夺我们最后的信息资源,我们真的就没底牌、没安全感了,普通百姓的信息安全、国家的信息安全,都将暴露在西方资本主义的枪口之下,后果不堪设想。
文章最后给自己打个广告,我创建了一个大家可以互相交流、互相帮助的社区,不管你是短视频创作者,还是文字自媒体朋友,都可以进来一起交流,进入没有门槛,大家可以互相取暖,告别信息不对称,各种AI创作工具、信息资源都可以免费分享。