,近来诸多国产大模型异军突起,助力相关行业产业发展。北京知未智能科技有限公司日前在上海发布了...
,近来诸多国产大模型异军突起,助力相关行业产业发展。北京知未智能科技有限公司日前在上海发布了知未智能 KDF 大模型 ,以及基于该模型研发的一系列产品,包括“ KDF 智讯”、“KDF 绝未”、“KDF 中书”等金融行业工具。
IT之家经过查询得知,知未智能 KDF 大模型的训练数据以中文为主,并包含大量的金融数据,以提升模型在商业和金融领域的问题处理能力。
此外,训练数据中还融合了部分英文与代码数据,以适应模型的通用能力。在训练过程中,知未智能 KDF 大模型将单个汉字视为独立的 Token 进行处理。模型参数量达 1400 亿,训练 Token 数达到 4000 亿。从代码量角度看,数据处理部分约 5000 行,模型实验部分约 2000 行,模型训练部分约 500 行。
在具体训练过程中,知未智能 KDF 大模型采用了基于 PyTorch 优化的 GELU 非线性激活函数。GELU 作为非线性激活函数,在各类任务中表现相对出色,有助于模型更精确地捕获复杂数据特征,确保整个开发、训练和部署过程的高效运行。
在网络结构方面,开发团队对模型进行了深度优化。与 LLaMA 模型相比,该模型在每一层使用更少的参数,有效降低计算需求和内存占用。同时,网络深度得到加强,使模型具备更强大的表示能力,能够学习到更为复杂的数据特征。
为提升模型在大规模数据处理中的可扩展性,开发团队重新调整了注意力层的 Bias,并引入了 Flash Attention 技术,旨在节省显存并提高模型训练和推理速度。得益于降低的计算量和内存需求,Flash Attention 使得知未智能 KDF 大模型在有限的硬件资源下实现更高效的运行。
从部分基准测试结果来看,知未智能 KDF 大模型在七个自然语言处理任务中展现出稳定的性能。在某些任务上,如 iFlytek 和 CMNLI,知未智能 KDF 大模型表现相对出色,在 ExamQA 和 OCNLI 测试中,各模型的表现大致相同,凸显了该模型处理不同类型文本和领域知识方面的能力。
知未智能科技 CEO 段清华表示,现有通用大模型在具体行业应用性和中文能力方面的局限是知未智能选择从零训练知未智能 KDF 大模型的主要原因,Chatglm 在具体行业应用能力上相对薄弱,MOSS 采用英文模型为基底而对中文支持不足,LLaMA 训练数据大多为英文数据而中文能力相对较弱。了,因此研发团队选择从零开始训练知未智能 KDF 大模型,以便更好地提升其中文能力以及行业适用性。
在模型训练过程中,开发团队不断深入理解技术细节,力求打造一款“功能强大、性能优越”的中文模型,作为一款应用于金融和商业的垂直领域大模型,知未智能 KDF 大模型将持续推动公司产品的开发创新。
知未智能 KDF 大模型目前已于 Hugging Face 开源,未来将不限制商业使用,感兴趣的小伙伴们可以在此进行了解。
广告声明:文内含有的对外跳转链接,用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。
,广州大学数学与信息科学学院7月21日发布讣告,信息安全国家重点实验室学术委员会原主任,中国密码学会第一届、第二届理事长,三次国家自然科学奖和国家科技进步奖获得者、“国家级有突出贡献中...
感谢IT之家网友西窗旧事、乌蝇哥的左手的线索投递!,据路透社报道,丰田汽车在华合资企业广州丰田汽车公司表示,鉴于近期的生产状况,已提前终止约1000名派遣工的合同。公司将依法给予经济补...
感谢IT之家网友华南吴彦祖的线索投递!,中兴在海外推出了一款BladeV50Design5G手机,搭载紫光展锐T760处理器,从参数来看有点像努比亚Neo手机的换芯版本。中兴Blade...
感谢IT之家网友华南吴彦祖的线索投递!,优派推出了新款VX3267U显示器,搭载32英寸4KIPS屏。该显示器配有31.5英寸3840x2160的IPS屏,支持350尼特亮度、60Hz...
,《街头篮球》手游是由端游开发商JOYCITY公司授权、北京掌趣科技股份有限公司开发、腾讯游戏运营的一款3v3公平竞技休闲体育手游,于2017年1月日正式公开测试。根据官方公告,由于业...