新华通讯社主管

首页 >> 正文

合合信息Embedding模型助力专业知识应用
2024-03-29 记者 张纹 上海报道 来源: 经济参考网

  当前,大语言模型的飞速发展吸引着社会各界的目光,背后支撑模型应用落地的Embedding模型也成为业内关注的焦点。近期,上海合合信息科技股份有限公司(简称“合合信息”)发布了文本向量化模型acge_text_embedding(简称“acge模型”)。该模型获得MTEB(Massive Text Embedding Benchmark)中文榜单(C-MTEB)第一的成绩,相关成果将有助于大模型更快速地在千行百业中产生应用价值。

  MTEB是衡量文本嵌入模型(Embedding模型)的评估指标的合集,是目前业内评测文本向量模型性能的重要参考。对应的C-MTEB则是专门针对中文文本向量的评测基准,被认为是目前业界最全面、最权威的中文语义向量评测基准之一,为深度测试中文语义向量的全面性和可靠性提供了可靠的实验平台。

  据了解,Embedding模型能够将单词、句子或图像特征等高维的离散数据转换为低维的连续向量,捕捉到数据的语义特征和关系,被广泛应用于搜索、推荐、问答、检索增强生成、数据挖掘等领域。合合信息技术团队打造的acge模型与目前C-MTEB榜单上排名前五的开源模型相比,合合信息发布的acge模型较小,占用资源少,可满足绝大部分场景的需求。此外,acge模型还支持可变输出维度,让企业能够根据具体场景去合理分配资源。

  互联网时代中,随着信息量急剧膨胀,人们接触信息的渠道不断拓展,大量无关的信息已成为信息检索的干扰项,Embedding模型能够显著提高信息搜索和问答的质量、效率和准确性,让搜索和问答引擎不再只是匹配文字,而是可以真正理解人的意图。

  “假设你需要了解如何在家中自制咖啡,可能会在搜索引擎中输入‘家庭咖啡制作方法’,传统的搜索引擎会简单地匹配包含关键词的文章,提供一些关键词相关的内容。”合合信息技术团队成员提到,借助Embedding模型,引擎便能更准确地理解用户意图,从而提供包括但不限于咖啡机选择、咖啡豆磨豆技巧、不同的冲泡方法等更实用的指南。

凡标注来源为“经济参考报”或“经济参考网”的所有文字、图片、音视频稿件,及电子杂志等数字媒体产品,版权均属《经济参考报》社有限责任公司,未经书面授权,不得以任何形式刊载、播放。获取授权

标识不清、材质以次充好 部分保温杯存安全隐患

标识不清、材质以次充好 部分保温杯存安全隐患

记者调查发现,市面上一些热销的不锈钢保温杯存在材质不合格、以次充好、标识不清等问题。

·业内呼吁建立长效机制处置家庭过期药品

《经济参考报》社有限责任公司版权所有 本站所有新闻内容未经协议授权,禁止转载使用

新闻线索提供热线:010-63074375 63072334 报社地址:北京市宣武门西大街57号

JJCKB.CN 京ICP备18039543号

010140010080000000000000011100001310769538