1月15日,科大讯飞举行讯飞星火大模型升级发布会。
发布首个基于全国产算力平台训练的具备深度思考和推理能力的大模型——讯飞星火深度推理模型X1,联合华为首次攻克国产算力训练深度推理模型难关实现多学段数学能力的国内第一,率先落地教育、医疗等刚需场景。
讯飞星火4.0 Turbo底座再次全面升级,七大核心能力全面提升,行业首发混域知识搜索技术。
发布星火语音同传大模型,国内首个语音端到端同传大模型,最快实现5秒以内的同传时延,达到人类专家译员的水平。
以下是全程实录:
发布讯飞星火深度推理模型X1
万里(产品经理):讯飞星火X1是我国首个基于全国产算力训练的具备深度思考和推理能力的大模型。前两天我也体验了正式版本的效果,先请权哥给大家介绍一下,深度推理模型到底和通用大模型有什么不一样的地方?
权哥(研究员):深度推理模型更擅长做数学题这样的复杂任务,而且有全面的思考推理过程。我们直接让星火X1做2024年高考数学卷第15题,这是一道大题。
万里:高考题目X1就算过关了,看起来很厉害啊。
权哥:我们让X1参加了不少“考试”,现在看到的就是X1最近的“数学考试成绩单”。
万里:很优秀的成绩单,考试类型也很全面,覆盖小学、初中、高中、大学,还有奥数。
权哥:我们利用更少的算力,实现了业界一流的效果,多项指标国内第一。在小初高数学上,X1已经做到90多分,竞赛类也有80多分,大学的答题和竞赛也达到了国内领先。部分任务题目很难,在国产平台适配跑通后的训练时间比较短,数据不太多,后面还有很大的提升空间。
万里:榜单上还有英文任务,也来试试。
想哥(研究员):2024年AIME竞赛这道题比较难,里面有多个方程,还涉及到对数运算。
想哥:再找个奥赛题给X1试试,这是我们国内去年高中数学奥赛的题目。
权哥:X1主要有三个典型特点。首先,它能够化繁为简,把复杂的问题拆解成多个步骤进行思考推理,刚才在做题的时候,右侧对思考过程都有展示。第二,它能够自我反思和验证,和我们直觉是一样的。刚刚在解答奥赛题的时候,由于人类标注数据难度极大,X1模型会根据答案正确与否进行强化训练,数学这种有明确答案和结果的任务,天然适配X1模型。
权哥:这方面的技术我们早有积累。比如我们提出的基于自我评价迭代的评语模型技术,还有我们在数学答题领域提出的多路径和反思迭代的强化学习,在教育高考作文评分、数学教师助手中应用了,o1-preview发布后,讯飞星火X1在1个月内就跑通了关键的算法。不过将整个系统在国产化平台上全面实现,在数据构建、框架调优、模型验证等各个方面都还有很多难题,虽然多花了不少时间和代价,但是很自豪我们都搞定了。
万里:国产算力确实在单卡、集群、生态上都和国际领先水平有一定距离。在这种情况下,想训练出能和OpenAI模型掰手腕的深度推理模型是比较困难的,这个过程中有没有遇到什么困难和问题?
想哥:星火大模型一开始就坚定地走全国产化路线,在这之前已经完成了很多模型适配,但是X1训练又是一条新的技术路线,这里面训练和推理有非常强的交互,需要跨任务传输数据及模型权重,任务优化总体目标也由追求在线实时响应变为离线高吞吐,这就要克服国产卡间互联带宽的短板。在这种复杂训练模式下,效率的影响因素也很多,后训练算力也直接飙升了一个数量级,所以我们马不停蹄和华为启动了合作攻关,成效很明显。说是攻关,其实这个过程更像闯关,我们没有成功案例可以借鉴,只能一点点啃骨头。
权哥: 最终我们的算法不仅在国产算力上成功适配了,而且端到端训练效率相比A卡,从刚开始的55%提升到了85%以上。因为训练框架基础夯实之后,我们才能做出更好的深度推理模型。
万里:有请华为昇腾计算业务研发总裁周斌和我们分享。
万里:讯飞星火迄今仍然是我国全民开放可下载大模型中的唯一一个用国产算力训练出来的大模型,又是唯一一个在全国产算力上训练的深度推理模型,在国产算力上总要有人勇闯无人区,还是为我们的团队自豪的。
星火大模型布局就是“1+N”,1是底座大模型、N是赋能行业应用,这次星火X1也会率先应用落地到实际场景里。
在教育上,去年1024,依托星火大模型的最新进展,联合中国教育科学研究院发布了基于“问题链”的高中数学智能教师助手,面向全国百个试点区域、联合千名优秀教研员和老师打造上万个优秀案例。现在星火X1已经部署在上述试点区域,来自北京、上海、合肥等地的教研员和老师均有体验,大家的评价都很不错。
老师们都说在解答一些高中数学的创新题目上,X1能一题多解,在教学知识关联、拓展学生高阶思维这些方面表现也很棒。前几天,在北京试点区域专题研讨的时候,北京八中有27年教龄的李双平老师说,X1推理过程和思路更清晰,如果遇到新题目或者考试题,X1经常会带来很大帮助。
X1除了能帮助老师教学,对于学生的学习也很有用。科大讯飞AI学习机依托人工智能国家队,首创了AI 1对1个性化精准学,帮助孩子减负增效,受到了很多家长和孩子的喜爱,用户净推荐值持续保持行业第一,著名演员孙俪老师也成为了我们的产品代言人。
这次推出的深度推理模型X1,可以使得讯飞AI学习机对孩子学习的诊断和推荐指导更加精准,更好地对孩子进行因材施教,后续我们将会持续升级。
权哥: 目前我们X1模型策略在医疗领域已取得初步验证成效,而且医疗也确实是一个非常适合深度推理模型的应用场景。我们基于知识反思和思维链技术,结合医疗循证推理技术,构建了医疗辅助推理能力的X1模型,专科辅助诊断和复杂病历内涵质控的效果都达到了90%。
同时,我们已经联合华西发布了医学大模型“华西黉医”,显著提升了复杂病历内涵质控效果;联合北京安贞医院发布了心脏诊断大模型,为心血管疾病的辅诊推理带来了技术突破。我们计划在今年上半年正式发布基于X1的医疗大模型升级版,在更大范围为医生提供更专业更高水平的辅助。
万里:X1已经在这些应用领域上产生真实的价值了。大家在讯飞星火网页端和APP端,搜索“深度推理模型X1”智能体,就能直接体验效果了。未来我们对X1还有什么计划和期待呢?
权哥: 首先,我们目前训练时间还不长,训练数据还不充分,随着飞星二号的算力持续到位,以及行业落地带来的飞轮效应,会加快X1模型的优化迭代;其次,我们在模型结构、强化学习算法上已经有了不错的思路和方案,因此我们对X1的效果进一步得到更大提升还是非常有信心的。另外,X1技术对星火底座模型也有很强的反哺作用,所以星火4.0 Turbo效果也提升了很多。
想哥:现在我们基础已经打牢了,国产算力水平也在不断提升,会全力保障星火大模型持续进步。
万里:相信我们的技术会应用到更多场景里面去!
讯飞星火4.0Turbo全新升级
林鸿(产品经理):看到X1对星火底座的助力和提升,相信大家也很关注底座最新的进展。
钖哥(星火军团CTO):最近朋友圈很多人刷屏,讯飞得到了大模型中标数量和中标金额双第一的成绩,尤其是在能源、金融、汽车、运营商等领域,跟客户构建了很多的行业大模型,在刚需场景上共同打磨了近百个智能体应用。这次星火4.0 Turbo的升级依然是紧贴用户的刚需,围绕着不同行业龙头企业的落地诉求、C端用户的真实反馈。大家关心的问题还是挺相似的,比如说“让大模型支持更长的文本、理解更复杂的图文、减少幻觉”、“能不能让大模型对行业的理解能力上有更大的提升”等,这都是我们本次星火4.0 Turbo底座升级的重点方向。
泰哥(研究员):在去年10月24日,我们基于全国产算力训练的星火4.0 Turbo就已经在各种真实任务的背靠背测试中超过了OpenAI的GPT4-Turbo。三个月之后,本次我们再次升级星火4.0 Turbo。可以看到,相比去年10月24日的版本,新版本在知识问答、语言理解等能力上都得到了持续提升,我们的星火底座已全面对标OpenAI 最新版的GPT-4o。特别要说明的是,在数学能力上,通过X1大规模数据合成以及基于长思维链的蒸馏技术,使得数学能力绝对提升了10.5%,这将助力数学教学、金融分析和科研等工作再上一个新的台阶。
林鸿:在底座能力上,长文本也是用户非常关注的一个能力,尤其是在一些严谨的场景下,比如企业知识问答,用户对幻觉的容忍度几乎为0,所以我们这次也升级了底座的长文本能力,行业首发句子级溯源。
泰哥:我们研发了基于智能体的全新长文本框架,除了进行超长注意力机制的优化外,还利用大规模书籍数据、网页数据等进行知识关联式的数据合成,对模型进行增强式的训练,使得新版本长文本的知识回复错误率相对下降了40%,句子级溯源的整体效果也已经超过GPT-4o。
钖哥:这两年得益于与很多龙头企业合作的机会,我们收集、整理了多个行业的海量高价值文本训练数据,并针对行业应用落地打磨了数十万的高质量行业场景SFT数据以及不少行业模型。这次星火4.0 Turbo在行业能力上也有明显的提升,例如,金融领域知识问答绝对提升14%,油气领域绝对提升了16%。
林鸿:除了对行业能力的需求之外,用户对图文识别的需求是非常迫切的,比如科研工作者需要阅读的学术论文、老师们需要批阅的手写作业、企业需要审核的盖章合同等,都需要图文能力,目前在业界也是巨大的挑战。
泰哥:这次星火4.0 Turbo特别强化了复杂场景的图文识别能力,从对比结果中能看出来,星火的图文识别能力在众多场景上超过了国内外友商,有些场景显著超越,我们的图文识别能力已经达到了国际领先水平。
钖哥:给大家看几个例子,第一个是一个拍照的表格,这个表格上都没有线,信息是很难理解的,且拍的有点倾斜,这是一个之前都解决不好的很难的场景。可以看到我们最新的图文识别大模型已经处理得很好,而友商处理的版面分析就直接错了。
钖哥:第二个例子是一个手写文字+公式的图片,是一个试卷的手写答案。手写文字密密麻麻的,也没有固定的版式。我们新的图文识别大模型不仅理解了版式,而且把这么复杂的手写数字、符号和公式都识别对了,也是显著优于竞品。
钖哥:类似的难题还有很多,比如医疗的体检报告经常有复杂的长表格、法院的文书或学术论文里有很杂乱的版式和公式、企业合同里也会遇到印章手写合同倾斜少线等等情况,图文识别大模型在这类疑难杂症问题提升了很多,效果更好了。
泰哥:很多用户已经很满意我们的图文识别效果,但也有用户对效率提出更大的期许。为了响应期待,我们还发布扫描文档解析的极速版本,对文档的理解速度提升了10倍,大大缩短了处理大量行业文档、构建私域知识库的时间。
钖哥:在与各行业用户探索大模型落地的场景过程中发现,大家无论是做战略规划、行业调研,还是制定市场策略,花费了大量时间在查找资讯和整理材料上。得益于图文、行业、长文本等能力的提升,我们首发混域搜索技术,无论个人知识、企业知识、行业报告、还是互联网信息,提问一次可以拿到综合搜索后的结果,这样信息搜索和整理的效率会大大提升,结合长文本首发的句子级别的溯源,可以让大家对问答的结果更放心。给大家看个演示。
林鸿:这些能力可以在讯飞星火网页端和APP端体验,希望能给大家带来更多的帮助和启发,在工作中找到更多场景尽情释放星火大模型的多维智慧。
此外,深受用户喜欢帮助大家做PPT制作的讯飞智文、助力新媒体工作者效率提升的讯飞绘文也同步上新,欢迎大家多多使用,多多反馈。
首发星火语音同传大模型
晨璇(产品经理):和大家分享科大讯飞在机器翻译方面的最新进展。本次发布的星火语音同传大模型,是国内首个具有端到端语音同传能力的模型。科大讯飞在跨语言沟通上,一直期望为用户提供最先进的技术支持和产品体验。
亚楠(研究员):讯飞是率先通过全国翻译专业资格考试的机器翻译系统,在最近的连续3届国际口语机器翻译比赛中获得了冠军。本次发布的端到端语音同传大模型不仅能够满足日常对话场景的需求,也在商务交流和行业翻译上取得了明显的进步。
晨璇:这次发布的关键词是“端到端的语音同传”,同声传译在翻译界也是困难的工作模式。业界觉得怎么样才算得上高质量同传呢?我们邀请上海外国语大学高翻学院张爱玲院长,来跟我们分享一下她的看法。
晨璇:张院长分享了同传工作中的几个关键维度,“内容完整性”“信息准确性”“语言质量”和“沟通效果”。在机器同传的场景下,同传时延也是影响沟通效果的一个重要指标。讲到这里,一起来试试讯飞星火语音同传大模型。
境廷(产品经理):我手上这台讯飞翻译机集成了最新的同传技术,一月特别适合去新西兰,晨璇来扮演一下当地的导游,介绍一下眼前的风景吧。
境廷:有了星火同传翻译,在国外旅游时,就可以一边看风景,一边听当地导游的中文介绍。
晨璇:但这种旅游场景还是挺简单的。这次重磅升级的星火语音同传大模型,可以再试试更难的内容。
境廷:我们有一位用户是做建材出口的,他经常在展会这种比较嘈杂的环境上介绍产品,我现在把翻译机连上蓝牙音箱,来扮演一下这位用户,你们作为海外客户,感受一下。
晨璇:这种专业场景下,机器同传很快,而且准确率也很高,再连接音箱的话,也完全能支持一个小型会议的同传了。
境廷:而且翻译机本身还有记录功能,用户可以事后随时回溯对话内容,整个商谈过程的关键信息都不会有任何遗漏。除了音箱,我们的翻译机还可以搭配很多其他的配件,比如连上蓝牙耳机,在工厂参观或者在项目现场考察,有同传加持,我们就可以边走边聊了。
晨璇:同传译员在练习同传时,在双语能力基础上,要训练听力、记忆力、心理素质,还需要了解各行各业的知识,有句话叫“You should know something about everything”。那讯飞星火同传大模型是怎么做到的语音同传的呢?
亚楠:十年前讯飞就想做语音同传,但发现技术太难了。现在大模型能力的发展,结合讯飞在智能语音技术上的独特算法积累,我们终于可以做端到端的语音同传。本次发布的星火语音同传大模型,是一个模仿人类同传译员的思维链路来训练的模型,在听到声音后进行实时意群理解和切分,结合上下文语境精准选词,并进行碎片化信息的重组。
晨璇:这类似同传工作中所谓的“顺句驱动”原则,比如有句话 “I went to iFLYTEK for a seminar at 10 o'clock yesterday”,你们怎么翻译?
亚楠:按照全句翻译是“昨天十点,我去讯飞参加了一场研讨会”,如果机器按意群直译,就是“我去讯飞,为了一场研讨会,在10点,昨天”。用大模型的生成能力做信息重组,就变成“我去了讯飞,去参加一场研讨会,时间是昨天上午十点”。既满足同传延迟,又保证句意准确传达。
亚楠:我们的流式合成技术会进行意群韵律衔接,并根据源语速自适应的调节合成语速。另外还会根据源语种和翻译语种的时长差距,向大模型反馈信息,实时调整译文的精炼度。这样一来整个翻译系统就可以流畅地运行起来。
晨璇:那目前整体的效果怎么样?
亚楠:国外几个主流的大模型以交传为主,这里展示的是我们的同传系统和国外交传系统的对比。在内容完整度、信息准确度以及语言质量等几个维度,效果都超过了国外的几个主流大模型。而且我们的同传系统还支持不同的时延模式,最快可以做到5s以内。
亚楠:听演讲,听报告,大型会议的时候,语音到文字的同传也是非常实用的,随着这次同传大模型的技术升级,也带来了各场景的技术进步,我们全系产品的翻译能力都有提升。
境廷:在翻译机的应用上,我们整体翻译能力的升级也一定能让春节期间全家出游或者跨国探亲的朋友们有更好的体验!当然,针对语音到语音的同传场景,我们的翻译机将会配置耳机、音箱、麦克风,在今年推出商务套装,满足不同商务洽谈场景使用。对于需要同传的专业合作伙伴,讯飞同传也限量开放了星火语音同传大模型的功能入口,您也可以扫描二维码申请试用!
以上就是本次讯飞星火大模型升级发布的全部内容。