元宇宙:概念、挑战与治理******
【光明青年论坛】
编者按
在2022年举办的第五届中国国际进口博览会和世界互联网大会上,“元宇宙”的发展与应用都是人们关注的热点。从提出、探索到逐步走向应用,元宇宙与人们的生活越来越近,一步步将虚拟与现实更加紧密地联系在一起,并将会在未来更加深刻地影响每一个人。如何认识元宇宙?元宇宙会给人类社会带来哪些机遇和挑战?应该对元宇宙采取怎样的治理方式?本版特约请四位青年学者,围绕上述话题进行讨论。
与谈人
赵精武 北京航空航天大学法学院副教授
贺超城 武汉大学信息管理学院讲师
张梁 中南财经政法大学法学院讲师
李珍 中山大学马克思主义学院教授
主持人
光明日报记者 底亚星 冀文亚
元宇宙代表了未来互联网发展的一种新形态
主持人:当前,元宇宙既是社交网络上的一个“热词”,也是技术领域的一个“热点”。我们应该如何把握和理解元宇宙的概念、特性与实质?
赵精武:现阶段,学术界与产业界尚未对元宇宙的概念形成共识,原因在于元宇宙技术本身尚处于初期探索阶段,其演进方向、应用场景、技术特征等要素尚在发展。当前对元宇宙概念的界定大多侧重于对元宇宙组成要素或技术特征的探讨。
总体来看,有关元宇宙概念的界定模式大致可以分为三类:一是物质世界数字化,即在互联网实现人类视觉、听觉数字化的基础上,元宇宙实现了触觉、味觉等各种感官体验的高度仿真;二是“平行世界”,即元宇宙描述了人类能够在虚拟空间进行与现实世界相同的活动;三是元宇宙是整合多种新技术而产生的新型虚实相融的互联网应用和社会形态,虚拟世界与现实世界在经济系统、社交系统和身份系统层面相互交叉融合。
可以确定的是,元宇宙代表了未来互联网发展的一种新形态。一方面,元宇宙是一种全新的网络平台,集合了社交、公共服务、智能制造、医疗健康、教育等多种功能,实现了企业平台与公共平台的互联互通;另一方面,元宇宙也是一种信息技术的“统合体”,是以区块链、人工智能、VR/AR技术、数字孪生等技术为底层架构的综合技术形态。
张梁:我们可以通过对汉字“元”的解读,窥探元宇宙的特质。
一方面,“元”有本质、根本的意思。元宇宙在某种程度上使得人类的感知摆脱了对客观物质世界的依赖,突破了虚实的界限。在元宇宙中,人们身体的主体地位被削弱,使得我们对于感知的认识更为抽象化、本质化。
另一方面,“元”有向度、维度的含义。多维数据是元宇宙的关键要件。互联网的诞生开启了现实世界数字化的进程,用户的数据通过各种智能设备记录下来,再通过大数据技术形成用户在数字世界中的“立体画像”,但这些“立体画像”仍然是一维的,因为它们的来源是用户本身;而元宇宙中,人与物、人与环境的数据相结合,形成多维数据,这使得元宇宙能够反过来为现实生活中的诸多问题提供更有效的解决方案。
李珍:关于元宇宙的概念界定,必须澄清元宇宙与现实世界之间的关系。从词源上讲,元宇宙(Metaverse)的词根“meta”在古希腊语中有两个基本涵义:“之后”和“超越”。元宇宙既是现实世界“之后”的宇宙,又是“超越”现实之上的宇宙,现实世界与元宇宙之间是历史与未来、现实与愿景的关系。从这个角度来看,类似于元宇宙的构想在人类思想史上并不罕见,如柏拉图的《理想国》、奥古斯丁的《上帝之城》、康帕内拉的《太阳城》、培根的《新大西岛》。然而,元宇宙与以往构想的不同之处在于,它是一种“虚拟现实”。所谓虚拟现实,不是指虚无缥缈的现实,而是指现实是被某种称为“虚拟”的手段构造出来的,即现实在表面上看是“虚拟”的,但实质上却是真实存在的。
贺超城:元宇宙的概念其来有自。美国数学家弗诺·文奇在1981年出版的“赛博朋克流派”开山之作《真名实姓》中构建了一个通过脑机接口进入沉浸式感官体验的虚拟世界;美国作家威廉·吉布森在1984年出版的《神经漫游者》中提出了“赛博空间”概念;1991年,赛博空间又催生出“镜像世界”的技术理念:现实世界的每个场景都可以用技术手段映射到人工编制的计算机程序中,且用户可以通过终端设备与其交互。自2021年美国游戏公司Roblox携元宇宙概念上市之后,元宇宙受到了广泛关注与解读。我理解,元宇宙是基于数字技术而构建的一种用户以数字化身份在信息世界、物理世界、人类世界交叉融通下参与交互的社会形态,是人类对未来数字文明高阶形态的想象与建构。
元宇宙带来多层次、多领域的机遇与挑战
主持人:科学技术对经济社会发展有着巨大的、深刻的、全面的影响,但任何技术的发展总是呈现机遇与挑战并存的基本特征。元宇宙会给经济社会发展带来哪些机遇和挑战?
张梁:从经济社会发展历程来看,交互方式、交互效率的革命是推动新业态出现的重要力量。在信息革命以前,接触式交互是最常见的交互方式;信息革命后,非接触式交互的效率大大提升,例如,互联网购物的出现和爆炸式发展,就得益于非接触式交互方式的成熟和其效率的提升。在元宇宙中,人们能够实现全身心沉浸式交互,用户以数字身份进行交互的同时,能够体验与真实世界相似的感受。这种交互方式、交互效率的变革可能会给目前技术条件下仍旧依赖接触式交互的产业带来巨大影响。同时,这种变革也蕴藏潜在风险与挑战。例如,逼近真实的交互体验,使得具有技术本质的元宇宙变得不再是人类个体与社群互动的工具,而有可能成为个体的延伸,变成越来越具有生命特征的“幻肢”,一个愈发独立的实体,这将给法律如何定义“人”带来前所未有的挑战。
李珍:从社会关系来看,元宇宙社会可能存在两种不同的发展前景。元宇宙先驱托尼·帕里西提出了元宇宙的基本建立规则:元宇宙是无人可以控制的、开放自由的,并且适合所有人的最为广泛的社会空间。这种规则,可能会赋予所有人“自由与平等”的社会关系,这无疑是一种前景乐观的未来网络社会“乌托邦”——人们可以在虚拟世界中摒弃现实世界的很多“包袱”,开始新的社会生活。但由于虚拟世界的数字化本质,所有的社会行为都会有数据记录,这些留痕数据可能会被人盗取,而达到对社会成员的操控和利用,这反而催生了一种新型的社会不平等,导致悲观前景。
从个体层面来看,元宇宙能够带来不同于以往数字技术的超强沉浸感体验,人们足不出户便能在虚拟世界中体验社交、购物、工作、学习、旅游等大多数生活方式,这在一定程度上能够带来身心愉悦。但久而久之,它极易造成人们对虚拟世界与现实世界之间界限的混淆。这里涉及三个哲学问题。一是知识问题:我们能否知道究竟是在虚拟世界还是现实世界?就像庄周梦蝶,如果梦境足够真实,庄子怎么知道自己是不是在做梦呢?二是实在问题:虚拟世界是真实的还是虚幻的?三是价值问题:你能在虚拟世界中过得好吗?如此,人们会陷入对世界和自身的认知疑难,认知疑难可能引发心理疾病风险、人格解体风险和成瘾性风险;若进一步发展,认知疑难还会对个体的道德判断能力产生负面影响。
赵精武:从数字经济发展来看,尽管我们尚无法准确预见元宇宙未来的技术形态和技术架构,但可以确定的是,元宇宙概念的提出意味着数字经济正朝向更高效率的数据要素市场化配置方向发展。例如,在具体应用层面,元宇宙在未来或许能够改变传统业态模式,延长既有的产业链经济价值,提升用户服务体验;在智能制造领域,元宇宙能够改变“生产—物流—销售—用户售后”的供应链形态,实现更高水平的定制化服务;在社会信用系统层面,元宇宙技术能够构建起一整套线上线下一体化的社会信用体系,借由区块链等底层技术优势,实现社会信用数据的可追溯和不可篡改,各地各部门信用数据也将相互联通,组成国家层面的社会信用大数据;等等。当然,任何技术的发展总是呈现两面性特征,元宇宙技术也不例外。在数字经济领域,元宇宙可能带来的挑战至少表现为:新一轮的数据安全和隐私泄露问题;现有的信息基础设施或将无法支撑全球或全国规模的元宇宙空间运作;某些互联网巨头为谋取竞争优势而各自打造相对封闭的技术生态,进而导致技术发展滞缓;等等。
贺超城:通过上述讨论,不难发现,元宇宙在给人类社会带来诸多利好与机遇的同时,也带来不少挑战,这集中体现为市场性风险、社会性风险、个体性风险和技术性风险。关于市场性风险,元宇宙在一定程度上为巨额资本进行资本操纵和巨头公司进行行业垄断提供了隐蔽空间;元宇宙中虚拟货币与现实世界的经济体系之间的联动,可能导致元宇宙中虚拟世界的经济波动溢出到现实世界。关于社会性风险,元宇宙中,自然人和虚拟数字人构成的群体可能由于群体无意识引起群体非理性;法律的滞后性可能使得元宇宙面临伦理冲击和挑战。关于个体性风险,元宇宙因其人机交互、沉浸体验而具备天然的“成瘾性”,过度沉迷虚拟世界可能会加剧社交恐惧;元宇宙中产生和存储大量数据,隐私泄露风险增大;元宇宙中的丰富数字内容,可能造成知识产权风险。关于技术性风险,元宇宙中规模庞大、高复杂度、及时迅捷的渲染、仿真和交互带来的高性能算力要求是技术性风险的隐患。
赵精武:这里还必须指出,上述机遇和挑战,大多还处于假想阶段。囿于元宇宙技术自身的不成熟,客观上我们还很难精准定位和描述元宇宙技术能够带来的机遇和挑战。因此,我们需要冷静看待元宇宙概念的提出和发展,既对元宇宙技术未来成熟的可能性抱有期待,也不应过分夸大元宇宙潜在的技术优势,而应当在对机遇与挑战的统筹考虑中,未雨绸缪探索平衡安全与发展的有效治理策略。
从制度、技术、价值等维度探索元宇宙治理之道
主持人:从历史发展进程看,人类生活的数字化、网络化是大势所趋,元宇宙的出现正是回应了这样的发展趋势。面对这一发展趋势,如何更好地对元宇宙进行治理?
张梁:目前,芯片、网络通信、虚拟现实等诸多细分领域的底层技术还不能完全支撑现阶段对元宇宙未来全景的构想,元宇宙的发展还处在初期,具有不确定性。因此,对于元宇宙的治理,应整体保持包容、审慎的态度,对于已经出现的具体风险则应当适时处置。
一方面,对于现阶段来说,促进发展是主题,对元宇宙的治理应主要是规范和引导。在政策上,需要给予相关领域前沿企业、机构较为充分的发展空间,激发元宇宙相关领域创新驱动力,发挥市场在资源配置中的决定性作用,更好发挥政府作用,引导技术、资本、人力等要素合理有序进入。
另一方面,对于因元宇宙热潮产生的乱象,需要及时介入治理。例如,元宇宙的出现为NFT(非同质代币)、虚拟货币等新型数字财产提供了更广泛的投资交易空间,但也为新形式的洗钱、非法集资、诈骗、传销等违法犯罪活动提供了通道,并出现了一些资本乱象。现阶段,元宇宙中“炒房”“炒币”现象层出不穷,资本市场中围绕元宇宙热炒概念,资金没有进入实体经济助力相关科技创新产业的发展,反而使得元宇宙相关技术、服务愈发资本化。对此需要保持警惕。在发挥资本促进元宇宙产业发展积极作用的同时,应防止其无序扩张,限制其消极作用,让元宇宙产业发展能够给人民生活带来真正实惠。但从本质上来说,前面谈到的这些因元宇宙热潮产生的问题属于“新瓶旧酒”,它们并不是元宇宙自身特质带来的新风险,而是商品市场、资本市场固有风险在元宇宙上的具体展现,现有制度能够较好应对。
赵精武:从来都不存在绝对安全的信息技术,对新兴技术配置相应的治理措施是必要的。而如何配置治理措施,首先应当审视这些新兴技术对现有法律制度和治理体系提出何种新的挑战。在主体层面,自然人在元宇宙中有自己对应的“虚拟人”身份,需要遵守不同于现实世界的制度规则;同时,产业界所描述的“虚拟人”的真实性,在目前看来主要还是感官层面的真实性,“现实人”与“虚拟人”在法律主体资格层面上的差异还不明显。在风险层面,从产业界所设想的元宇宙应用场景来看,元宇宙安全风险治理需求集中于数据安全、服务提供者的法定义务、虚拟财产交易制度、个人信息保护制度等领域,其安全风险表现形式可能与主流技术导致的风险事件有所差异;同时,元宇宙安全风险的损害结果和侵害的民事权益,与主流技术导致的风险事件基本相同,元宇宙中用户行为所导致的法律责任仍可追溯至特定法律主体,“主体—客体—内容”的法律关系结构尚未发生实质变更。但也应认识到,伴随元宇宙技术的发展与迭代,当技术能够真正抹除虚拟人与现实人的身份关联时,就必然会对现有法律制度提出前所未有的挑战。因此,元宇宙的治理应当遵循过程风险预防的基本思路,即根据技术在不同发展阶段的特征及其相应社会风险,优先在法律解释层面补足有关元宇宙治理规则的不足;当现有治理体系无法回应特定发展阶段的元宇宙技术风险时,就有必要专门在立法层面创设全新的规则予以调整。
贺超城:从技术角度来看,当前的技术治理是“防御型向善”,即想办法防止技术做坏事;未来则需要“创造型向善”,即在科技研发阶段,就朝着人性之善、社会之善的方向寻找发展“需求”。元宇宙作为崭新且前沿的方向,科技向善有必要也有条件成为其运行的最大公约数:一方面,更充分地连接到社会的每一个人;另一方面,提供更具人文关怀的产品服务。
主持人:对于元宇宙的治理,除了制度建构、技术规制之外,如何从价值和伦理的维度开展?
李珍:首先,树立人人为我、我为人人的道德原则。元宇宙技术的基本特征是去中心化的连接方式,但不能把去中心化看成是对个体中心化的确证。因此,在对元宇宙的治理中,要把“共同善”作为最基本的道德原则,即发展一种把社会利益放在个人利益之上的,人人为我、我为人人的道德原则。
其次,回归现实的第一本位,破解价值认知疑难。元宇宙高强度的沉浸式体验深刻影响个体认知的能力,使人们在虚拟世界和现实世界的交替体验中面临认知疑难。只有让个体回归现实,与真实的人、自然和社会互动,将虚拟世界视为现实世界的延伸,才能真正解决虚拟现实沉浸性带来的风险。
最后,促进文化交流与文明互鉴,构建网络空间命运共同体。元宇宙中信息广泛传播,不同国家、地区、人群间的信息鸿沟不断缩小,文化背景的差异逐渐显现。不同文化对隐私、自由、公正等价值分配权重存在差异,这种差异会造成信任障碍。这就要求每一个参与对话的个体和组织都要对其他文化保持开放态度,不同文化背景的研究者之间以交流合作的形式,确保新技术的开发具有全域性意义,保证相关利益涉及方都参与治理,寻求价值权重协调路径,构建出基于全人类共同价值的对话模式。
主持人:通过各位专家的讨论,我们对元宇宙的本质特征、未来发展以及治理策略有了更多了解。推进元宇宙有序发展,哲学社会科学不应缺席。保持元宇宙发展正确的价值导向,形成科技与人文的良性互动,使其实实在在造福于人类,这是哲学社会科学工作者在元宇宙发展中的使命担当。
■专家点评
武汉大学二级教授、信息管理学院副院长吴江:元宇宙的确是人类文明发展的一件大事,现在的火热也是全方位的。四位青年学者给予了元宇宙充分的想象空间,并对元宇宙给人类带来的挑战、机遇以及如何治理进行了非常有价值的讨论,引导我们从以下三个方面对元宇宙进行深入思考。
首先,元宇宙是人类叙事方式。元宇宙将成为人类历史上一种全新的叙事方式,叙事的逻辑将从真实世界跃迁到虚拟世界,将创造一个虚实融合的全新故事。元宇宙的叙事方式既能够促进人类物质上的再一次发展,也能满足人类在精神上的需求。
其次,元宇宙是数实融合空间。30多年前,钱学森院士在致汪成为的手稿中,就已提到与元宇宙紧密相关的虚拟现实,并将它翻译为具有浓厚中国味的词——“灵境”。他认为有了灵境,人的创造能力将会大大提高,从而形成大成智慧。元宇宙区别于传统环境最显著的特征就是现实和虚拟时空的融合,成为一种数实融合空间,元宇宙不仅仅呈现数字世界,而且更强调数字和现实的融合,除了现实中的空间会融合到数字空间,数字空间中的时间将不再完全对应现实空间中的时间,将变得更加多样和多维。
最后,元宇宙不是指单一的数字技术,它是集人类各种数字技术之大成者。数字产业化和产业数字化形成元宇宙的生产力闭环;依靠数据价值化使得数据作为数字文明创造的主要生产要素,驱动数字产业化和产业数字化;通过治理数字化不断去改造生产关系,推动生产力创造一个有效而健康的元宇宙环境。元宇宙逐渐成为数字社会的进阶形态,成为推进人类文明迈向更高级文明的重要推动力。
未来已来,让我们沿着青年学者们的思考,讲好元宇宙故事,构建好元宇宙空间,一起通过元宇宙创造美好的数字文明。
西南政法大学民商法学院教授林少伟:四位青年学者立足各自学科,从多个方面对元宇宙阐发了见解,特别是揭示了元宇宙这种新的社会形式的巨大潜力与潜在风险,这是一个非常重要的议题。元宇宙将革新人类的生活方式,为人类带来全新的生活体验,但同时也必然引发一系列社会治理与法律规制问题。如何引导元宇宙与现实社会的协调并行,是当下需要探讨并回应的重要问题。
防范元宇宙可能带来的风险,首先要看到其背后存在的三大治理难题:第一,元宇宙强调理性人的自主选择,对规制具有某种天然性排斥。第二,以算法和数据为驱动的元宇宙平台可能会凭借海量的用户数据而成为庞大的数据中心,进而对具有统一趋向性的技术发展和规范治理造成一定冲击。第三,元宇宙下的去中心化削弱了对中心化机构的信赖,以致传统中心化治理难以融入元宇宙系统。
为应对元宇宙对社会经济带来的挑战,应在规制逻辑上有所转变。第一,由被动消极型的治理向主动积极型的治理转变。元宇宙的不断更新,要求采取及时性和回应性的积极立法观,以便对元宇宙作出动态适应和有效引导。第二,由一刀切式的规制模式向差别化规制模式转变。可根据风险高低对数据信息进行类型化规制,如对国家安全和社会安全等高风险数据的处理予以严监管,涉及个人信息和公共事务等低风险数据给予宽监管。第三,由权力—技术的双向式向权力—技术—伦理融合式转变。面对数据垄断行为、数字资产盗取、数据篡改等问题,可融合权力(强制性与社会性)、技术(行业标准或加密标准等)、伦理(人类伦理效仿等)三要素,驱使元宇宙通往正义之路。第四,由形式正义覆盖模式向实质正义穿透模式转变。通过自动化决策减少潜在的歧视意图,矫正算法中隐藏的歧视与不公等。
《光明日报》( 2023年01月06日 11版)
2022年,人工智能带给人类更多惊喜******
视觉中国供图
在世界人工智能大会上,用户输入文字,AI就能根据语意进行绘画创作。视觉中国供图
在国内首个乘用车无人化运营试点北京经济技术开发区,一辆“主驾无人、副驾驶配备安全员”的无人驾驶车在行驶中。新华社记者彭子洋摄
即将过去的2022年,对于人工智能来说是值得铭记的一年。大批人工智能相关应用走出实验室,向着大范围落地实践不断迈进。AI“黑科技”加持下的北京冬奥会异彩纷呈;无人驾驶开启多城试点,未来交通更进一步;AI绘画以假乱真令人着迷,艺术创作或许不再是人类专属……
无论是底层技术不断突破,还是各类应用百花齐放,在过去的一年,人工智能向我们展示了它的无限可能。我们相信这只是人工智能的冰山一角,未来它还有更多潜力等待我们去挖掘。
随着技术的不断成熟,落地应用不断创新,人工智能或将真正改变你我的生活。
AI“黑科技”照亮北京冬奥会
助力天气预报、比赛转播和手语播报等
2月4日,全球瞩目的2022年北京冬奥会正式拉开帷幕。人工智能等技术的应用为本届冬奥会增添了别样的“科技之美”。
在此次冬奥会上,由中国科学院院士、北京大学副校长、北京大学重庆大数据研究院首席科学家张平文领衔研制的人工智能MOML算法赋能天气预报模型,使冬奥会天气预报更加精准。人工智能算法在融合、处理信息中的先天优势,使其在一定程度上可以代替预报员在会商中进行信息整合、分析,通过数据挖掘与学习,将预报员的经验内化在算法中,在提高天气预报效率的同时,也进一步提高了预报的准确率。
在本届冬奥会自由式滑雪女子大跳台决赛中,中国选手谷爱凌以“逆天”的精彩表现获得个人首金。在比赛转播过程中,百度智能云通过“3D+AI”技术打造出的“同场竞技”系统,将单人比赛项目变成“多人比赛”,实现冠、亚军比赛画面的三维恢复和虚拟叠加,方便观众看到不同选手的实时动作;同时,通过技术手段对运动员动作进行量化分析,将滑行速度、腾空高度、落地远度、旋转角度等一系列运动数据与原始画面叠加起来,使观众可以更直观地从流畅性、完成度、难度、多样性和美观度等角度看懂选手之间的技术动作差异。
在北京冬奥会开幕的同一天,央视新闻AI手语主播也正式上岗,她在冬奥会新闻播报、赛事直播和现场采访中,为听障人士送上了实时手语翻译服务。凭借精确的手语翻译引擎,该AI手语主播可懂度达85%以上,可将冰雪赛事的文字及音视频内容,快速精准地转化为手语。
腾讯“混元”AI大模型登顶VCR榜单
展现了其在多模态理解领域的强大实力
5月31日,腾讯“混元”AI大模型在多模态理解领域国际权威榜单VCR(Visual Commonsense Reasoning,视觉常识推理)中登顶,两个单项成绩和总成绩均位列第一。这是继在跨模态检索领域大满贯、CLUE自然语言理解分类榜及CLUE总榜登顶后,“混元”AI大模型的又一重大突破,展现了其在多模态理解领域的强大实力。
与跨模态理解任务不同的是,多模态理解任务要求计算机除了能够做到识别层次的感知(如分类检测等),还需要达到认知层次的感知(如判断意图、逻辑推理等)。
此次登顶VCR榜首的“混元”AI大模型由腾讯广告多媒体AI团队自主研发,同时借助腾讯太极机器学习平台的图形处理器算力和训练加速框架,在预训练任务、训练方式上进行了诸多创新改进和设计,有效提升了模型性能。
截至目前,“混元”AI大模型在MSR-VTT、MSVD、CLUE、VCR等多个领域的AI权威榜单中取得了第一名的成绩,并刷新多项行业历史纪录。这意味着,“混元”在自然语言理解、多模态理解、跨模态理解等领域的技术实力已得到验证。
谷歌工程师闹乌龙,称AI存在意识
人工智能所谓的“人格”更多只是模仿人类罢了
谷歌AI工程师闹乌龙,称LaMDA语言模型有意识,引发业界对“AI是否拥有自主意识”的讨论。
今年6月,谷歌公司AI工程师莱莫因认为对话应用语言模型LaMDA具有了“自主意识”,并对此出具了长达21页的证据。莱莫因认为LaMDA具有意识的原因有三:一是LaMDA以前所未有的方式高效、创造性地使用语言;二是它以与人类相似的方式分享感觉;三是它会表达内省和想象——既会担忧未来,也会追忆过去。
LaMDA是谷歌在2021年开发者大会上公布的大型自然语言对话模型,它可以模拟任何带有知识属性的实体,通过“拟人”的方式,在与人类亲切自然的对话中为用户答疑解惑,传递更多知识。
莱莫因的观点和证据引起了业内的广泛关注。不久后,谷歌发表声明称,莱莫因违反了“就业和数据安全政策”,将其解雇。谷歌表示,经过广泛地审查,他们发现莱莫因关于LaMDA是有生命的说法是完全没有根据的。
专家普遍认为,当下人工智能具有的所谓“人格”,更多只是模仿人类的语言风格,有自我意识、有感知能力的AI应该具备能动性,并具有独特的视角看待人和事,但目前AI还只是人们设计的一个计算机系统,作为工具来做一些特定之事。
全球首个图、文、音三模态大模型诞生
“紫东太初”实现“以图生音”和“以音生图”
9月1日,在上海举办的2022世界人工智能大会上,由武汉人工智能研究院、中国科学院自动化研究所和华为技术有限公司联合研发的“紫东太初”多模态大模型项目获得了此次大会的最高奖项。“紫东太初”是全球首个图、文、音三模态大模型,开创性地实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”,实现了“以图生音”和“以音生图”,理解和生成能力更接近人类,为打造多模态人工智能行业应用提供创新基础,向通用人工智能迈出了重要一步。
“紫东太初”三模态间的相互转换和生成,其核心原理是视觉、文本、语音不同模态通过各自编码器映射到统一语义空间,然后通过多头自注意力机制学习模态之间的语义关联以及特征对齐,形成多模态统一知识表示;之后,再利用编码后的多模态特征,通过解码器分别生成文本、图像和语音。
“紫东太初”凭借四大突破,有效助力以多模态认知为核心的通用人工智能发展。一是首次提出多层次、多任务跨模态自监督学习框架,支持从词条级走向模态级、样本级的三级预训练自监督学习方式;二是首次完成弱关联多模态数据语义统一表示,减少数据收集与清洗代价;三是首次实现多模态理解与生成任务的统一建模,支持跨模态检索、多模态分类、语音识别、图像生成等理解与生成任务;四是首次实现无监督超越有监督方法,基于5%—10%的数据标注,实现100%的有监督学习效果。
AI打破矩阵乘法计算速度纪录
解决了50年来数学领域一个悬而未决的问题
10月,英国《自然》杂志封面以“矩阵游戏”为题,发表了人工智能公司“深度思维”团队的最新发现:AI可以解决矩阵乘法问题。这款名为“AlphaTensor”的AI系统能自行发现新算法,从而解决了50年来数学领域一个悬而未决的问题——找到两个矩阵相乘最快的方法。这是第一个可为矩阵乘法等基本任务发现新颖、高效且正确算法的AI系统。
数学在计算机编程中经常出现,通常作为描述和操纵现实世界现象表示的一种手段。例如,它可用于表示计算机屏幕上的像素、天气状况或人工网络中的节点。在这种情况下,使用数学的主要方式之一,就是对矩阵进行计算。矩阵越大,工作量也越大,计算机科学家开始花费大量时间和精力开发更加有效的算法来完成相关工作。
在此次最新成果中,“深度思维”团队研究人员探究了是否有可能使用基于强化学习的AI系统来创建新算法,从而使计算步骤比现有算法更少。
为了找到答案,他们从游戏系统中寻找灵感。在构建了一些初步系统之后,研究团队将重点转向了树搜索,这是系统在特定情况下查看各种方案的一种方法。
接下来,研究人员将允许系统创建自己的算法,进一步提高效率。他们发现,在许多情况下,系统选择的算法比人类创建的算法更好。“深度思维”团队希望,未来AI能更多地用来帮助攻克数学和科学领域的一些重要的难题。
2022中国人工智能创新发展指数公布
全面反映我国人工智能发展态势
11月18日,第五届世界声博会暨2022科大讯飞全球1024开发者节开幕式上,中国电子信息产业发展研究院(又称赛迪研究院)发布了2022中国人工智能创新发展指数(合肥指数)。
这是国内首个以地区冠名的全国性人工智能专题研究成果,旨在全面系统地反映我国人工智能的发展态势。中国电子信息产业发展研究院从发展环境、创新能力、基础配套、资本投入和产业实力5个维度,构建了中国人工智能创新发展指数,也就是“合肥指数”的评价体系。
近年来,我国人工智能步入与经济深度融合应用新阶段,智能化转型全面推进,人工智能产业在全球的影响力不断增强。2021年,我国人工智能的研发强度为19.4%,从业人数增加到31万人,占全球比重的5.3%。2017年至2021年,我国人工智能产业规模增长了2.6倍,占全球比重提升到16.8%。专利申请量占全球比重持续扩大,从2012年的13%增长到2021年的70.9%。创新能力上,我国人工智能研发投入力度不断加大,从业人数不断增加。
从总体指数来看,北京、广东和上海处于人工智能领域的领跑地位,安徽则紧随其后,排在全国的第6位。合肥已经成为人工智能领域、科技创新与产业发展最活跃的城市之一。
ESMFold预测六亿多种蛋白质结构
预测速度比“阿尔法折叠”快60倍
英国“深度思维”公司8月曾宣布,其开发的人工智能程序“阿尔法折叠”已预测出约100万个物种的超过2亿种蛋白质结构,几乎涵盖了科学界已编录的每一种蛋白质结构。但就在今年11月,元宇宙平台公司(Meta)研究人员利用人工智能模型ESMFold预测了来自细菌、病毒和其他尚未被表征微生物的6亿多种蛋白质结构。
在此次最新研究中,研究团队利用大型语言模型来预测这些蛋白质结构。据悉,语言模型通常需要大量文本进行训练,为将这一模型应用于蛋白质结构预测,研究团队利用已知的蛋白质序列来训练它,这些已知的蛋白质可由20个不同氨基酸组成的链来表达,每个氨基酸由一个字母表示。然后,ESMFold学会了用模糊的氨基酸比例“自动完成”蛋白质结构预测。
该团队负责人亚历山大·里维斯表示,这些训练让ESMFold对包含蛋白质形状信息的蛋白质序列有了直观了解。而且,与“阿尔法折叠”一样,这一模型能将这些了解到的信息与已知蛋白质结构和序列之间的关系信息结合,生成预测结构。
团队指出,ESMFold的预测虽然不像“阿尔法折叠”那么准确,但在预测速度上要快60倍,这意味着它可将结构预测数据库扩展到更大。
首创蛋白质动态结构AI建模方法
对理解生命过程、研发新型药物有着重要意义
12月8日,西湖大学公布了该校人工智能讲席教授李子青团队联合厦门大学、杭州德睿智药科技有限公司首创研发的能够刻画蛋白质构象变化与亲和力预测的AI模型——ProtMD。这是第一个尝试解析蛋白质动态构象的人工智能模型,可辅助药物化学专家更加精准地筛选出高活性小分子,从而加速临床前药物研发。
此前谷歌旗下公司研发的“阿尔法折叠2”能够利用人工智能准确预测蛋白质的三维结构,对结构生物学、药物设计乃至整个科学界都产生了巨大影响。但“阿尔法折叠2”只能预测蛋白质在一个瞬间的静态结构,尚未能解决蛋白质结构动态变化的预测。李子青团队此次开发的AI模型,在给定药物分子和靶点蛋白的情况下,可预测药物分子与生物体内靶点蛋白质结合(柔性对接)后蛋白质结构的变化过程,推断药物与靶标蛋白结合的稳定性,预测药物功能,从而提升AI药物设计的精度和效率。
李子青表示,预测蛋白质结构的动态变化对理解生命过程、研发新型药物都有着十分重要的意义。尤其在AI药物设计中,通过对药物分子与靶点蛋白结合后的动态结构变化进行预测,评估药物—靶点结合亲和力和药物效果,是提高AI药物筛选准确性和效能的重要思路。
多城市推动自动驾驶行业发展
我国自动驾驶行业正式向L3级迈进
2022年是自动驾驶行业具有里程碑意义的一年,有关政策密集出台,相关应用从研发测试走向大规模商业化试点。当前,全国近30个城市已累计为80余家企业发放了超过1000张道路测试牌照,允许高等级智能网联汽车在特定场景、特殊区域内开展规模化载人载物测试示范。越来越多的城市正在推进更高等级的自动驾驶商业化。
今年8月1日,《深圳经济特区智能网联汽车管理条例》开始实行,该条例提出L3级自动驾驶在行政区全域开放道路测试、示范应用,探索开展商业化运营试点,标志着我国自动驾驶行业正式向L3级迈进。
此后,重庆、武汉等地政府部门也先后发布了自动驾驶全无人商业化试点政策,并向百度发放全国首批无人化示范运营资格,允许车内无安全员的自动驾驶车辆在社会道路上开展商业化服务。
此外,为推动智能网联汽车产业健康有序发展,工业和信息化部会同公安部还组织起草了《关于开展智能网联汽车准入和上路通行试点工作的通知(征求意见稿)》,拟遴选符合条件的道路机动车辆生产企业和具备量产条件的搭载自动驾驶功能的智能网联汽车产品,开展准入试点;对通过准入试点的智能网联汽车产品,在试点城市的限定公共道路区域内开展上路通行试点。
AI绘画火了,AIGC元年开启
未来预计能够产生万亿级经济价值
今年8月,在美国科罗拉多州举办的新兴数字艺术家竞赛中,参赛者杰森·艾伦提交的AIGC绘画作品——《太空歌剧院》,获得了此次比赛“数字艺术/数字修饰照片”类别一等奖。没有绘画基础的杰森·艾伦借用了一款名叫Midjourney的AI绘图工具,通过一个类似“文字游戏”的过程,输入题材、光线、场景、角度、氛围等有关画面效果的关键词后,得到了初始作品,并在反复调整和修改后最终完成了这组“太空歌剧院”数字艺术作品。
这一年,AI绘画小程序、网站等开始迅猛增长,而美图秀秀、抖音等软件也加入了AI画图功能。抖音平台数据显示,截至12月6日,已有超2428.4万人使用该特效,迅速飙升至特效潮流榜第一位。AI绘画的百度指数也从日均两三千上升到日均3万,火爆程度可见一斑。
AI绘画的火爆也让AIGC这一概念逐渐进入大众视野。
所谓AIGC(AI Generated Content),即基于人工智能技术自动生成内容的新型生产范式。其技术主要涉及两个方面:自然语言处理(NLP)和AIGC生成算法。其中,自然语言处理是实现人与计算机之间通过自然语言进行交互的手段。
最初,AIGC可生成的内容形式以文字为主,经过2022年指数级的发展,目前AIGC技术可生成的内容形式已经拓展到了包括文字、图像、视频、语音、代码、机器人动作等多种内容形式,2022年也因此被称为“AIGC元年”。生成式AI让机器开始大规模涉足知识类和创造性工作,未来预计能够产生数万亿美元的经济价值。(科技日报实习记者 都芃)
(文图:赵筱尘 巫邓炎)