富联招商主管,数据科学是一个从数据预处理到模型构建,再到因果分析、实验验证和行业应用的完整流程。每个环节都至关重要,共同构成了数据科学的核心能力。
但随着GPT-4、DeepSeek等大模型掀起新一轮技术革命,数据科学领域正经历前所未有的范式重构。模型参数指数级增长、多模态融合突破、AI原生应用井喷......在这场变革浪潮中,数据科学的底层方法论是否依然成立?从业者该如何平衡技术创新与传统经验?本次峰会汇聚产学研顶尖专家,共同探讨大模型时代下数据科学家的生存法则与发展机遇。
肖仰华博士,复旦大学教授、博导,上海市数据科学重点实验室主任。长期从事大数据、认知智能研究。 荣获ICDE2024十年最有影响力论文奖、ACL2023杰出论文奖。发表 CCF-A 、B 类等论文 200 余篇。出版学术专著与教材三部。完成五十多项政府及人工智能头部企业研发项目。荣获包括华为、阿里、美团等机构授予的科研奖项二十多项。担任 Applied Intelligence 等多个国际期刊副主编或编委。
1.引言:大模型发展过程中数据所扮演的重要角色,以及大模型数据科学和大模型数据工程的定义,演讲结构概览
2.大模型的语料工程:大模型训练语料的选择标准、组织方式、分类体系、核心问题等,以及大模型课程学习优化策略
3.大模型的指令工程:大模型微调指令的分级体系、评价标准、优化方法等,以及大模型指令学习过程中的优化策略
4.多模态语料与指令:多模态大模型的训练数据特征,以及多模态数据集的评估方法、合成方式、分类体系等
5.大模型思维能力提升:大模型与人类思维过程的差异及大模型反思能力的实现、优化与评估
6.总结:数据是大模型发展过程中长期性、根本性、战略性问题,是引领大模型从“只知其然”的前“牛顿”时代走向“知其所以然”的“牛顿”时代的关键。
徐萌是 Snap Inc. 的Tech lead of core data science,她从北京大学元培学院获得经济学和法学学士学位,从加州大学洛杉矶分校经济学系获得博士学位,其后加入了Snap Inc.,
2. AI在数据收集与清理中的应用:AI赋能的数据匹配,从非结构化文本图像中提取数据信息,语义搜索,基于embedding的内容相关性分析
4. AI提高数据科学工作效率的其他方式:代码优化,语言转换,AI辅助用自然语言进行数据可视化,改写专业术语使其浅显易懂,利用AI学习新工具
2. AI还是一个比较static的model没有去适应使用者的技能更好实现个性化以满足使用者需求
罗智凌目前是阿里云-飞天实验室的阿里云百炼算法负责人, 杭州”万人计划“青年拔尖人才。在加入阿里巴巴集团之前, 我是浙江大学计算机的一名助理教授。我的研究得到了来自国家自然基金和浙江省杭州市政府的支持。
我和我的团队在负责 1. 阿里云大语言模型平台-百炼。 2. modelscope(魔搭);并参与通义千问系列模型,特别是代码模型和推理模型的研发,代表是XiYanSQL。
数据库作为三大基础软件,在大模型时代是最重要一种“外脑”,如何更好的引入大模型以使用甚至管理数据库是一个非常有趣的问题。我们会简要回顾过去这类技术的10年发展史,并列出当下实际场景中暴露出来的新的挑战,进一步我们给出一个我们对这些挑战的解决思路(析言xiyan),最后我们会给出我们对短期和长期未来的技术趋势的理解。
1. 数据库的结构和数据模型千变万化,如何让模型能理解“数据库里有什么”;
北大光华商业分析硕士,在微信实验平台负责社交网络实验、异质性分析、实验长短期效应的算法设计与开发,从0到1搭建腾讯分布式因果推断工具。
自20年加入WXG搜索应用部后一直负责部门实验相关规范及基建工作,覆盖搜一搜,问一问业务。与实验平台紧密合作落地各项优化实验质量及提升实验分析效率的能力,为业务提供正确实验实施及高效实验分析方法及基础。
背景:微信搜索业务模块复杂,原有实验体系存在流量叠加冲突、指标不统一、操作流程不规范等问题,实验错误率达6%/月,且未考虑平衡商业化策略与用户体验。
标准化流程:制定实验操作规范,增加排查机制及手段,典型错误率降至1%/月,实验吞吐量提升10倍;
核心价值:通过分层治理、流程规范与跨域协同,构建适配复杂场景的AB实验体系,兼具业务实用性与技术扩展性。
2. 如何结合AI大模型,助力用户洞察业务增长点,并基于实验数据更好地进行迭代
多年从事数据科学工作经验,擅长结合业务场景与数据科学,优化业务,目前从事信贷金融数据挖掘相关工作。
Uplift 模型是用于评估个体对于处置手段的反应,实际应用中,由于Uplift的建模目标,常常伴随较差的鲁棒性, 而在金融信贷中,往往实验是不可逆的,对于模型的鲁棒性要求会更高,因此本演讲会从样本、特征、模型以及评估指标等方面讨论如何提升uplift模型的鲁棒性,实现一个可落地鲁棒性强的Uplift模型。
1. 提升Uplift模型鲁棒性,往往需要多模型或者是多次训练集成,如何更快更有效的评估并合并多个模型。
2. 针对Uplift模型鲁棒性,也跟特征敏感度相关,如何更好衡量特征敏感度,提升特征选择效果
罗慰蓝 腾讯音乐实验平台团队负责人,一直从事数据平台建设、大数据架构设计及数据科学流程落地等工作,在数据工程领域有着丰富的经验。
在本次分享中,我将为大家介绍腾讯音乐实验平台在因果推断领域的探索与落地实践。我们将聚焦于一个核心的因果推断功能——策略正向子人群挖掘,深入剖析其数据科学流程、工程实现以及实际应用中的思考与挑战。同时,我们也会简要介绍其他因果推断功能,帮助大家全面了解因果推断在业务中的应用场景。
本次分享将从数据科学与数据工程的双重视角出发,结合实例,为听众提供从理论到实践的全面洞察,助力大家在各自领域更好地应用因果推断技术。
3. 从数据准备、模型构建到结果验证,系统化了解因果推断能力的实现路径。
周星,腾讯广告实验科学总监。从事广告算法研发工作十余年,先后负责过大规模机器学习模型、oCPA、智能出价/定向/创意、机制设计、用户挖掘、行业技术服务等工作,主导承办过KDDCUP和腾讯广告算法大赛。
互联网广告业务中,不论To B或To C的场景,都需要通过数据的驱动来获得更精准的评估与决策。在B端,我们通过广告增效实验设计,可以准确地衡量广告为品牌带来的增量价值;进一步地还可以通过建立Uplift Model,来找寻广告效果最佳的广告受众群体。在C端,为了权衡广告消耗与用户体验,一方面我们可以通过Uplift Model衡量广告对收入以及用户时长带来的异质性效果,以制定针对性的调整策略;一方面建设了广告收入与用户体验之间兑换权衡的评估框架,为策略的全面评估提供了思路。
听众可以从本演讲中了解如何通过数据科学的思维,掌握科学营销与增效实验设计的实战方法,同时也可以学习到如何将广告收入与用户体验进行科学权衡。
在用户体验与广告收入的兑换衡量中,用户体验可能会通过多个指标、多条路径对长期收入造成影响,所以一方面需要尽可能穷尽体验指标影响收入的因果路径,另一方面在因果路径无法穷尽时,需要尽量在不同的场景对兑换比分别进行测算
罗文娟,博士毕业于中国科学院计算技术研究所,研究方向为文本挖掘。毕业后曾在美团从事用户增长相关算法优化,在滴滴担任资源分配业务负责人。加入快手后,主要工作内容为基于因果推断算法优化push效率提升push效果。读博和工作期间曾在ICDM,KDD,NIPS,Information Processing & Management , Knowledge Based System等顶级会议和期刊上发表多篇论文,并发表国际专利一项。
中国人民大学高瓴人工智能学院博士生,研究方向为因果推断,强化学习以及大语言模型的偏好对齐和推理等。曾以第一作者或者合作者的身份在NeurIPS,KDD,ICLR等顶级会议和期刊上发表论文十余篇,工业界实践经验丰富,曾在滴滴、快手、腾讯、华为等公司实习。相关成果已在工业界实际场景落地并取得一定收益。
随着近年来在线营销的发展,uplift modeling在营销场景中的地位变得越来
