大模型价值跃升“赛点”：算力还是数据-南非双创网

2023世界人工智能大会期间，有人直言，没有大算力做大模型就是天方夜谭。但也有人认为，数据要素在人工智能大模型的发展中具有关键性作用，决定了模型的训练质量、性能表现和应用领域的广度与深度。

(资料图片)

全球大模型群雄逐鹿，算力最先告急。今年5月29日，英伟达创始人黄仁勋断言，“我们已经达到生成式AI引爆点，从此全世界的每个角落都会有算力需求”。一天后，英伟达市值突破万亿美元，屹立世界之巅。

人们常把算力、算法、数据形容为人工智能的三驾马车，但这三驾马车之间可能也不是完全的并行关系。如果说算力是大模型的“根”，那数据或者说是高质量的语料库，或许就会成为算力的“根”。

一热一冷

大模型浪潮，率先将算力推至风口浪尖。2023世界人工智能大会上，算力成为大模型绝对的关键词之一。中国工程院院士、鹏城实验室主任高文把算力比作电力，认为没有大算力做大模型就是天方夜谭。华为轮值董事长胡厚崑也提到，大模型训练的效率或者是创新的速度，根本上取决于算力的大小。中国的算力已经成为一个越来越稀缺的资源。

大会期间，毕马威与联想集团联合发布《普慧算力开启新计算时代》报告。毕马威中国数字化赋能主管合伙人张庆杰在解读报告时提到，算力供给增速明显难以满足指数式爆发的需求，储备算力成为各行各业的必要举动。

据了解，深度学习出现之前，用于AI训练的算力增长大约每20个月翻一番；之后，用于AI训练的算力大约每6个月翻一番；2012年后，全球头部AI模型训练算力需求更是加速到每3-4个月翻一番，即平均每年算力增长幅度达到惊人的10倍；目前大模型发展如火如荼，训练算力需求有望扩张到原来的10-100倍，算力需求的指数级增长曲线将更加陡峭。

大模型对算力的需求是显而易见的，但更关键的点可能在于是否能把算力更高效地挖掘出来。一家芯片企业的技术人员对北京商报记者提到，一个模型上线需要用到很多硬件，如果只支撑了少量用户，就会因为太贵导致用户不买账，由此撑不起正向循环的情况，但太便宜又会出现亏本的问题。特别是到落地阶段，如何能够结合模型上的一些改进，把硬件的特性最大程度地发挥出来，就会变得非常重要。

“也就是说在训练阶段，大家对算力的追求可能是‘大’，这一方面能够做出更大的模型，另一方面也能够进行更快速的迭代。但到用户开始接受这个效果的时候，就要涉及到怎样做才能更划算的问题，也就是说在部署阶段，可能要更关注‘精’的问题，尽可能用相对少的算力实现最大程度的作用。”上述技术人员说道。

大会期间，比起对算力的探讨，数据就显得有些“冷清”了。“数据要素比大模型早好几年，大模型被‘炒’起来了，但数据要素却一直不温不火。”7月8日，在2023世界人工智能大会“大模型时代下的数据要素流通”论坛的主题演讲中，拓尔思总裁施水才开场便提出了这样一种现象，在他看来，这场论坛为人们认识数据要素流通提供了一个新的视角。

机遇与挑战

在上述论坛上，中国知网副总经理张宏伟表示，数据是人工智能的基石，数据的质量和数量最终决定人工智能水平高低，影响其安全性、可信性。施水才更是认为，高质量数据才是大模型价值跃迁的制胜法宝。

但当下的问题在于，数据并不都是高质量的。过去一段时间，一度出现“AI正在污染中文互联网”的讨论，而AI最让人诟病的就是“幻觉”问题，也就是人们常说的“一本正经地胡说八道”。

大模型“幻觉”也是人工智能大会期间被提到的高频词汇。施水才对北京商报记者提到，“幻觉”问题的出现，主要是因为大模型缺乏理论的支撑，因为其核心技术原理主要就是Transformer架构下的NextTokenPrediction，即“下一个字符的预测”。另一方面大模型并不是越大越好，数据也不是越多越好，真正好的大模型是参数大小适中，数据高质量。

算力可以堆硬件，相比起来，优质数据的供给可能会复杂得多。中国电子副总经理陆志鹏提到，大模型技术实现高质量发展，数据有效供给是关键，急需建设安全可信的数据底座。当前数据合规确权、计量估价、协调分配、安全隐私保护等核心难题需要破解。

在接受北京商报记者采访时，上海数据交易所副总经理韦志林提到，从推动数字经济，推动数据作为生产要素的角度看，数据应该是最核心、最长远、最基础性的因素。“大模型的预训练对数据要求也特别高，必须在前期进行清洗、标注、标识，但围绕千行百业的数据训练，在数据供给方面也呈现出了许多问题和挑战。”

首要的就是头部厂商并不愿意开放数据。数据是生产要素，数据有价值，这些已经达成共识，但进行数据共享就一定会牵扯到安全问题，如何解决数据在共享过程中的安全机制至关重要。而数据的开放流通，也自然涉及收益分配，且数据流通过程中创造的新价值更多服务于企业内部，拿出去的动力还需进一步培育。

“所以从数据流通本身看，更多压力还存在供给侧这一方面，需要解决供给侧中产权制度问题、收益分配制度问题、安全问题、基础设施问题等，让数据流通更加便捷、更加合规。”韦志林表示，上海数据交易所作为国家战略的承接者，需要解决的就是这些问题。

据了解，7月8日，上海数据交易所启动语料数据生态创新合作伙伴计划，而在此前一天，上海数据交易所官网刚刚正式上线语料库，累计挂牌近30个语料数据产品，包含文本、音频、图像等多模态，覆盖金融、交通运输和医疗等领域。

北京商报记者杨月涵

相关新闻

猜你喜欢

大模型价值跃升“赛点”：算力还是数据

cad为什么选不中对象是被锁了吗?（cad为什么选不中对象）

脸书推出了Bug赏金忠诚计划黑客Plus和奖励

高中课本廉颇蔺相如列传朗读（高中一年级语文必修四廉颇蔺相如列传原文）

张良点金：晚间黄金顶部形态构成，现价或1918直接空！

怕被化石燃料行业报复，欧盟计划抛弃《能源宪章条约》

仁恒置地海口美视高尔夫项目开工总投资额57亿

小乔丹打趣杰夫-格林离队：我在场上会更高产将会做更多的事情

中国海洋大学举办学院教育教学质量文化建设交流活动

毛尖茶叶保持期

视频丨拜登现迷惑行为：下飞机突然停下，张开双手一个半蹲

科大讯飞：上半年净利润预降71%-80%

以亚运名义伪造印章招募保安牟利警方：涉事男子被刑拘

“蓝盾转退”盘中临时停牌

火国祖地篇开启，火灵儿闺蜜姿势诱人，鸳鸯浴名场面将被删减

东风风神皓瀚新车亮相与快舟火箭达成战略合作

上海市高级人民法院、上海银保监局共同探索推动司法与监管大数据信息共享互通机制建设

康熙字典有多少字体（康熙字典有多少字）

投诉湖南逻辑教育

三季度光伏行业需求有望放量，光伏50ETF（159864）涨超3%

关注丨扩大惠及面税优健康险改革落地

摄影｜映日荷花别样红

通灵股份7月10日盘中涨幅达5%

刚刚！国家统计局公布最新CPI数据

富时中国A50指数期货开盘涨0.6%

精彩图集

大模型价值跃升“赛点”：算力还是数据

cad为什么选不中对象是被锁了吗?（cad为什么选不中对象）

脸书推出了Bug赏金忠诚计划黑客Plus和奖励

高中课本廉颇蔺相如列传朗读（高中一年级语文必修四廉颇蔺相如列传原文）

相关新闻

猜你喜欢

大模型价值跃升“赛点”：算力还是数据

cad为什么选不中对象是被锁了吗?（cad为什么选不中对象）

脸书推出了Bug赏金忠诚计划黑客Plus和奖励

高中课本廉颇蔺相如列传朗读（高中一年级语文必修四 廉颇蔺相如列传 原文）

张良点金：晚间黄金顶部形态构成，现价或1918直接空！

怕被化石燃料行业报复，欧盟计划抛弃《能源宪章条约》

仁恒置地海口美视高尔夫项目开工 总投资额57亿

小乔丹打趣杰夫-格林离队：我在场上会更高产 将会做更多的事情

中国海洋大学举办学院教育教学质量文化建设交流活动

毛尖茶叶保持期

视频丨拜登现迷惑行为：下飞机突然停下，张开双手一个半蹲

科大讯飞：上半年净利润预降71%-80%

以亚运名义伪造印章招募保安牟利 警方：涉事男子被刑拘

“蓝盾转退”盘中临时停牌

火国祖地篇开启，火灵儿闺蜜姿势诱人，鸳鸯浴名场面将被删减

东风风神皓瀚新车亮相 与快舟火箭达成战略合作

上海市高级人民法院、上海银保监局共同探索推动司法与监管大数据信息共享互通机制建设

康熙字典有多少字体（康熙字典有多少字）

投诉湖南逻辑教育

三季度光伏行业需求有望放量，光伏50ETF（159864）涨超3%

关注丨扩大惠及面 税优健康险改革落地

摄影｜映日荷花别样红

通灵股份7月10日盘中涨幅达5%

刚刚！国家统计局公布最新CPI数据

富时中国A50指数期货开盘涨0.6%

精彩图集

大模型价值跃升“赛点”：算力还是数据

cad为什么选不中对象是被锁了吗?（cad为什么选不中对象）

脸书推出了Bug赏金忠诚计划黑客Plus和奖励

高中课本廉颇蔺相如列传朗读（高中一年级语文必修四 廉颇蔺相如列传 原文）

高中课本廉颇蔺相如列传朗读（高中一年级语文必修四廉颇蔺相如列传原文）

仁恒置地海口美视高尔夫项目开工总投资额57亿

小乔丹打趣杰夫-格林离队：我在场上会更高产将会做更多的事情

以亚运名义伪造印章招募保安牟利警方：涉事男子被刑拘

东风风神皓瀚新车亮相与快舟火箭达成战略合作

关注丨扩大惠及面税优健康险改革落地

高中课本廉颇蔺相如列传朗读（高中一年级语文必修四廉颇蔺相如列传原文）