Qcon两天会议总结与有感-大模型时代

这两天参加了qcon的两天会议,从整个会议的主题来看,80%的话题基本围绕着大模型相关,20%的话题围绕着基础设施资源、云的使用以及业技融合相关,但整体分享的议题实质还是展现了目前行业的一个本质:

就是IT怎么进行降本增效和创新变革,从而去应对新时代IT行业发展的挑战。

同时,从整个两天会议参加的人群情况来看,基本上还是以年轻人为主,周围所讨论的也主要是大模型为主;所有的展台也基本上是展现大模型与coding的结合,从这些情况来看,可以看出:

1、23年,行业都在探索大模型的演进与发展,但截至到目前,各个公司包括各大厂,都还是未探索出killer apps,也就是像微信、抖音、支付宝这类的能够去改变人们工作、生活方式的超级应用和场景,目前最多的只是在利用大模型来改变工作的方式,而这类场景并没有真正进入到生产的交互,也就是实质性能够给产业带来助力,给公司收益带来大的帮助;

2、两天会议,和周围一些参会的人做了一些交流,还是能看出,IT行业基本进入到第三个纪元,如果把基于移动开发所代表的移动互联网,作为IT人员转型的第一个纪元的话,微服务所产生的各类中台的发展作为第二个纪元,现在个人感觉应该开始进入IT人员技术、理念、工作方式的第三个纪元,而第三个纪元,就是以AI去驱动IT人员自身工作的发展,乃至通过AI去驱动各个产业的逐步变革,这可能不光是产业资本的力量所驱动,也是作为一个社会个体也需要去面对和考虑的内容。

3、IT进入的门槛在未来几年,按照我个人的猜测,基本是越来越高,大模型的的演进,虽然目前并未有杀手级应用,但随着行业的探索、时间的推移,社会智力的综合提升,大模型的智能、健壮性无疑是逐步提高的,势必会给IT人员的工作带来不小的影响。就拿以大模型为支撑的coding助手来讲,虽然现在还不是很完善,但随着此垂直领域的深度发展,基础性常规性代码的自动化产生与应用,趋势无法避免。

接下来简单记录下我参加的几场会议的感受。

第一天我重点参与了一些大厂的综合大模型和云资源的话题的分享,比如腾讯、字节、阿里、亚马逊,收获颇多。有一些点做下记录。

第一,围绕着大模型的应用场景一直在探索,但23年,还是以大模型的训练推理为主。因资源投入等,目前能有资源去投入大模型的,也就主要以腾讯、字节这类大厂为主,虽然23年进入了百模大战的元年,国内也出现了几百的大模型,但整体和openai所代表的chatgpt相比,还是差距很大。国内很多大模型虽然也在全球的模型社区进行打榜评测分数竞争,包括对于训练的模型参数的大规模化的竞争,但整体还是有不少问题或者不完善的地方。国内大厂也需要极度关注投入产出比,目前做的很多基于大模型的应用,也并未带来真正的实际收益,国内基本还处于行业早起的探索铺垫中;

第二,听了几场关于云资源的话题分享。其中包括云所代表的基础设施的稳定性、云的使用等。行业对于云的使用还是持积极的态度,普遍结论认为,云一类的基础设施,比如云的伸缩性、云所提供的各类成熟的基础软件等,都无疑会给无基础设施投入条件的公司带来很大的帮助。同时,随着serverless等无服务化技术的越来越成熟,在资源高峰低峰的混合部署启动上带来很大的便利,在资源降本上,有了很大的技术铺垫。这里记录几个个人认为比较重要的会上的认知话题。

首先,要将云成本纳入到系统建设之前的非功能需求中。以前我们一直在强调包括安全、可用性、可扩展等非功能需求,而现在,需要将云资源成本也纳入到非功能需求,一个系统到底需要多少资源,这些资源该怎么使用,都是需要去进行评估的。目前很多大厂都开始把此内容纳入到需求交付过程中。 另外,从资源决定架构的交付模式转变到架构决定资源的交付模式。以往我们在做项目交付的时候,都是先把资源评估好,以及年度需要去采购哪些资源,有些时候资源可能会有很大的冗余。而现在的交付模式一定要转变到通过架构去决定资源的交付。架构,代表着稳定性,好的架构,能够去进行资源、研发实施的降本增效,永远不能忽视架构的重要性。架构和资源都是相互匹配的,是可计算的,无任何的玄学。

最后,“我们一直都是这么做的”,这句话在IT过往的交付和运维过程中,一直都是很多人的口头禅,而新的时代,要逐步去杜绝这句话,这种方式极度危险,基础设施的资源的投入,不会一层不变,也不会一直都是这么做的,要不停用的新的理念去拥抱新的变化和时代。

第三,挑选听了几场垂直领域的大模型的分享会。记录如下一些要点。

首先,垂直领域的小模型,公司做适当的投入是能够训练出来的。大模型的训练和推理,重要的基础条件就是GPU资源。从一些专家的分享来看,都不建议以烧钱的方式去进行模型投入,因为从目前来看,ROI不明显。但行业垂直小模型的训练是可实践的。其中,我重点了解了腾讯某个事业部自行训练的一个模型,其主要做text2sql领域,也就是报表口语化。这个需求的背景来源于腾讯内部的高管经常需要去看各种数据以及分析结果,然后结合这些数据去进行一些战略研究。以往的方式,都是领导直接跟运营或者IT团队进行需求提起,然后进行特定抽数整理,因报表很杂很多,人力消耗不少,所以该团队就结合模型进行了训练和推理。比如,腾讯的高管在窗口输入“我想看一下23年某事业部游戏道具的收益”,那么通过模型会自动去形成sql,同时通过sql去生成最终的报表。另外,看的一个案例就是好未来猿辅导的一款数学教育产品,主要就是通过模型训练,形成一款数学解题分析题目的应用,也是结合各类数据做的垂直领域的小模型投入。

另外,目前模型的投入所带来的产出并不明显。根据在现场的讨论,其实现在也很多表面的场景,比如生成会议纪要、比如读取文档生成摘要等,目前产品都有,但没法商业化,也就是不知道怎么带来收益。这里,大家都讨论了一个话题,大模型刚出来,大家都觉得和客服的结合是最大的一个场景,但随着探索发现,结合是没问题,但是在自动化客服的过程中,到底能带来怎样的收益,一直没探索出真正的场景,也就是现有的应用,无非就是解答用户的问题和诉求,但真正要做的,就是在和用户交互的过程,是能够带来商业上的转化,这才是是否投入该去考虑的。

最后,技术门槛和模型复制的问题。模型相关的领域,首先是一个基础学科的领域,对于很多基础的数学、计算机等课程必须有很多的了解;其次,目前开始变成一个工程化的命题,在整体模型的训练、推理、部署上都有不小的难度,需要非常多的知识的辅助,所以是有技术门槛。对于模型价值,会发现,一个模型的训练产生,除了科学的含义,其实也有不少玄学,也就是“数据炼丹”。有些时候,一些结果的涌现,训练的人都不知道为什么出现了这个结果,可能不一定能合理完整地去解释现象后面的本质,而且有可能同一个现象的产生,大家训练用的算法和数据都不一样。按照我对模型训练的实践来看,其实最具有价值的就是数据+模型参数。所以很明显可以看出,如果一个模型在场景上获得成功,那么这个模型其实别人是很难去复制的,因为数据+模型参数都是当事人自己去选择的,即使当事人公布了又或者有文档,但在新的人或者团队的手上,也不一定能在新人的训练推理过程中得到想要的结果。个人觉得,除了商业价值外,这也是模型的价值,也是IT一部分不可替代的价值,所以,作为团队来讲,一些领域的投入,是可以长期去考量的。

最后,在记录一些其他的话题或者感想。

在整个会议的期间,我又挑选了两场关于数据中台、业技融合的话题。如下:

1、今年所看的数据治理和数据中台的话题,其实都是在说明一个事情,怎么去降本增效。我拿其中爱奇艺这一场来举例子。23年之前爱奇艺整体的数据中台的技术架构和我们是差不多的。都是围绕着Hadoop/hive/hbase/es等,其中日志这块也是使用es为主。在数仓分层上,也是以ods/dwd/dwa进行。但是23年开始,爱奇艺进行了重构,也就是逐步将hive/hbase等逐步数据湖化,其中也把es的日志存储换成了大数据平台的日志存储。整体大数据平台都统一成了iceberg数据湖技术。从表面看,这可能是爱奇艺做技术重构的一个现象,但从深处分析,其实是降本的体现。以往大数据平台的多个组件需要不同的人的分工合作和运维,还是有不少的资源投入,特别是人员的投入,就像分享嘉宾自己所说,es做日志存储不光运维难度大,在人力资源和硬件资源上也消耗很大,所以23年,他们把所有日志都重新汇集到了数据湖。这点,深有感触,也是我们当时进行日志重新汇集的一个目的。23年,爱奇艺对大数据平台的技术栈进行了统一化和重构,虽然难度很大,但确实是面对公司压力的一个自我革命。

2、业技融合。业技融合深层次看其实是偏效能的问题,目的也是提高效率,降低事情成本。整个会议中,就只有一场,我也大概学习了一下。业技融合是一个很复杂的工程,并且需要从上至下的很完善的流程去进行驱动,整体而言,其和数据治理类似,非IT本身能够去全面做到,也非技术本身的难度话题,其需要有制度上完善的运营流程。这块看后期PPT是否分享,涉及的话题很大也很细。

整体两天会议,还是让我个人有极大的危机感,包括和周围相对年轻的人员的沟通发现,整个IT行业目前都很卷,但就看怎么能够去卷得有价值,而不是单纯去卷,关注价值导向,是新时代IT人的最求本质。 最后的最后,看到周围更年轻的同学,不得不感叹年轻真好啊!技术的发展,IT的新变化,对于更年轻的人来讲,充满着各种挑战,充满着各种创造。提升自己,永远是最本质的手段!

(完)

—————–EOF——————



Previous     Next
mjgao /