5月31日下午,人民日报社技术部主任何智敏、技术部副主任居晓军等到拓尔思( 300229 )总部考察调研,拓尔思总裁施水才携相关业务负责人接待陪同。

何智敏一行听取了拓尔思正在承建的人民日报“国传”融媒体及中央数据库项目建设情况,双方就当前热门的大模型技术如何赋能媒体生产和传播,提升媒体行业服务能力等话题做了深入交流,并研究了拓尔思与人民日报共创的人民专属模型落地应用的有关问题。

调研最后,双方均表示在AIGC大模型时代下,探索媒体与大模型的融合应用势在必行,未来双方将依托各自在媒体领域的技术产品与生态优势,携手加强媒体大模型的深入应用,共同推动媒体融合向纵深发展

千亿级规模高质量数据资产

目前,拓尔思已经积累了大量的专业模型、AI工程化经验和千亿级规模高质量数据资产,在中国NLP市场中占有重要地位。

根据国内权威咨询机构赛迪顾问发布《2022-2023年中国NLP市场研究报告》显示,预计2023-2025年,中国NLP市场将保持33%以上增速;到2025年,NLP市场规模将超过400亿元。

自2022年11月ChatGPT发布以来,国内大模型如雨后春笋般,层出不穷。据智东西统计,截止至2023年5月29日,国内至少有55个类GPT大模型已经推出或马上面世。互联网/云服务大厂、AI企业、传统行业公司、大数据公司以及算法公司几乎全部入局。在这场百模大战中,大模型的发展已从“通用”迈入“垂类”。

据了解,拓尔思拥有规模及质量均位列业界前茅的网络公开数据,所有公开采集的数据经过加工处理后,推到三大数据资产平台(媒体资讯、舆情、产业大脑),通过不同专业模型转化成不同领域的知识数据,实现数据从资源性到经营性的数据资产变现。

千亿规模的高质量数据不仅可用于拓尔思自研的拓天大模型中,媒体、政务、金融三个领域的基础知识注入,也可为其他广大的MaaS服务商提供训练数据集服务。这些数据既可帮助垂类大模型实现中文特性增强,也可显著提升在上述专业领域方面的上下文和生成连续文本的能力。

助力数字经济腾飞

大模型训练需要优质且合法的数据资源,而新闻单位、传媒出版业作为版权保护要求严密的内容生产行业,其文本数据资源无疑具备稀缺性。

拓尔思为满足媒体用户对互联网资讯内容的数据需求,将基础渠道数据、特色资源数据以“云服务”的方式推送到用户的核心生产平台中。

据悉,拓尔思服务了72%的中央新闻单位,60%的省级新闻单位,40%的行业新闻单位。公司的融媒体内容生产服务平台以内容资产为核心,涵盖了报、网、端、微、视和自媒体平台的全流程内容生产发布管理,已成为公司媒体用户的核心生产平台。

与众多媒体用户长期合作下来,拓尔思沉淀了大量传媒领域优质的用户偏好数据、精标数据、RLHF数据等。这些数据用于缩小媒体大模型训练效果和用户需求之间的差距,具有非常高的价值,能显著增强媒体大模型的泛化能力。

在传媒出版领域,拓尔思还长期服务人民出版社、人民教育出版社、知识产权出版社、化学工业出版社等23家出版单位,主要为传媒出版用户提供大数据资源管理、知识图谱等技术服务。

目前,拓尔思正在和数家合作出版用户积极推进联合共创垂类知识大模型的事宜。

面向人工智能历史新机遇,拓尔思作为国内领先的人工智能、大数据和数据安全产品及服务提供商,将为产业界提供更全面更优质的数智赋能服务,持续助推人工智能数据领域高质量发展,助力数字经济腾飞。$拓尔思(sz300229)$