超180个业务接入腾讯混元大模型中文能力超GPT35首次亮相“文生TVT体育官网图”功能

发布时间:2023-10-29 08:55:54    浏览:

  10月26日智东西北京报道,今天腾讯宣布,腾讯混元大模型正式对外开放“文生图”功能,首次展现其在图像自动生成领域的能力。在现场,我们看到了腾讯混元大模型“文生图”功能是如何一步步成长的。

  此外,腾讯自研的面向垂直领域的7B和13B模型也首次亮相,腾讯还提及混元大模型的中文能力整体超过GPT3.5,代码能力大幅提升20%。

  目前,超过180个腾讯内部业务已接入腾讯混元大模型,包括腾讯会议、腾讯文档、企业微信、腾讯广告和微信搜一搜等。同时,QQ浏览器通过腾讯混元大模型推出了“PDF阅读助手”,具备智能摘要、智能问答和多轮提问等功能。

  此次,沟通会上,腾讯机器学习平台算法负责人康战辉详细介绍了腾讯混元大模型升级后的业务增长情况,腾讯混元大模型文生图技术负责人芦清林则具体讲述了腾讯混元大模型的“文生图”功能具体情况,以及在研发“文生图”功能的过程中,腾讯又是如何攻克技术难关。

  在腾讯内部,混元大模型又提高了哪些生产力?智东西和少数媒体对话康战辉和芦清林,了解到混元大模型最新的研发进展,以及其大模型落地情况。

  目前,混元大模型已经接入了180+业务,相较于刚刚发布时的混元大模型情况,业务增长翻了三倍左右。现阶段,文档问答、文本创作、代码生成以及常识推荐都成为大模型重点发力的头部场景。比如,通过自然语言,腾讯混元大模型已经可以内置超过250款内置函数,从而形成表格生成,又或者在代码生成中,用户可以通过自然语言帮助用户打造程序。

  经过对32种主流语言代码文件、各类计算机书籍和博客的学习增训,腾讯混元代码处理水平提升超过20%,代码处理效果胜出ChatGPT 6.34%,在HumanEval公开测试集指标上全面超过Starcoder、Codellama等业界头部开源代码大模型。在代码预训练流程,混元大模型通过接入通用语言自然语言、计算机类论坛和Github代码等文件,让大模型可以在预训练过程中增加代码填空任务、代码语言标签等,并且windows size也从2K增加到8K。

  在现场,我们看到康战辉演示了如何通过自然语言输入用Python写一个抽奖程序,并运行,现场展示效果较为流畅。现在,用户只需输入简单的指令如“帮我用前端语言实现一个贪吃蛇”,腾讯混元便能自动生成可运行的代码,制作出一个贪吃蛇小游戏的程序。

  不仅在写代码,混元大模型能够提高工作效率,同时,工程师们可以使用腾讯混元来进行代码生成、代码补全、代码漏洞检测和修复、表格数据处理、数据库查询等工作。

  这些供功能背后是,是腾讯自研一站式机器学习平台Angel为其提供技术支撑。AngelPTM训练框架可提供分布式训练解决方案,训练速度相比业界主流框架提升1倍。AngelHCF训练框架具备从蒸馏、微调、压缩到模型加速的能力,支持多种模型并行,保证模型的最小化部署及最大化吞吐,推理速度相比业界主流框架FasterTransformer快1.3倍。

  据康战辉透露,代码预训练的效果在HumanEval公开测试集指标上超过Starcoder领先75%。端对端的效果中,混元大模型Code能力显著超过ChatGPT,在部分语言如Python等部分语言能力上和GPT-4上差不多。

  腾讯的流量产品较为丰富,对文生图的需求能力也较为强烈。目前的文生图主要是两种方案,第一类是从0-1的团队组建技术方案,另一类则是通过接入大模型,从而完成文生图的应用。

  现阶段,文生图算法模型存在三大难点,语义理解、生成合理性以及生成质感。混元文生图模型正在通过Clip预训练大模型,保障语义表达,通过基于模型的独立生成主模型保障图像结构稳定,以及级联的超分辨率辅模型,保证图像细节质感。

  腾讯混元大模型文生图技术负责人芦清林提及文生图的模型中,如何用中文的表义特征转换成图片的语义表达一直是业内的一大难点。混元大模型通过CLIP支持中英文双语理解,同时加强文本特征在细粒度属性上的区分度。同时,他们还通过Tokenizer优化并结合中英文训练,提升中英文了解能力和编码效率。为了增加语义信息,腾讯也通过轻量级prior模型打造跨模态的桥梁,用小计算量换稳定的生成效果。

  在生成合理性上,芦清林用“人形图”举例,如何告诉大模型生成一个人的模型,让人的组成要合理。腾讯用Transformer实现扩散模型,统一了图像和文本token实现双向注意力,文本对图像控制更加精准。

  为了提升画面的质感细节,腾讯通过多模态融合,让新模型拟合所有模型在各自数据上均有优先的表现,提升优化效率,从而提高生成图像更细致的纹理,比如说,可以看到更多的水波纹在湖面上荡漾。经过模型算法的优化之后,混元文生图的人像模型,包含发丝、皱纹等细节的效果提升了30%,场景模型,包含草木、波纹等细节的效果提升了25%。

  除了这些以外,在混元文生图的数据工程中,常出现图文对数据质量差、训练周期长、效果弱,并且大模型迭代效率低。目前,混元文生图通过中文细粒度Caption补充Prompt,提升图文的相关性等,从而提升数据质量、效果、以及效率的最大化。

  混元大模型也逐渐通过旅游、金融等广告中通过AIGC能力,帮助广告主获得合适的图片。针对图文广告场景,腾讯针对人像、游戏画风等多个环节做了专门的优化。在研发初期,人物和场景的融合,会出现不自然、表情动作僵硬等情况,场景类素材出现缺饭品质感、细节的情况。“Midjourney生成的酒店看起来像是五星级大酒店,我们的看起来就像廉价的小酒馆,但在优化后,我们的酒店至少是个精品民宿了。”芦清林说。

  他说,在经过3个月的攻坚克难后,广告业务下的多轮测评中,腾讯混元文生图的案例优秀率和广告主采纳率分别达到86%和26%,均高于同类模型。

  和其他着急推出行业大模型的企业不同,我们看到腾讯正在将混元大模型的底层能力和其公司内容的产品精密融合,试图和如微信、浏览器、腾讯会议、腾讯文档等多层内容产品,不断打磨自己的大模型能力。可以看出,腾讯混元大模型团队,目前仍将大部分精力放在打磨大模型能力上。

  据相关负责人透露,腾讯混元大模型正在不断强化图片、视频、音频等各类模态的处理能力,相关成果也将很快面向外界推出。TVT体育