金磊 整理自 凹非寺量子位 | 公众号 QbitAI加拿大pc28开奖网
谈到大模子的“国货之光”,除了DeepSeek除外,Qwen这边也有新动作——
初度将开源Qwen模子的潦倒文彭胀到1M长度。

具体而言,此次的新模子有两个“杯型”:
Qwen2.5-7B-Instruct-1MQwen2.5-14B-Instruct-1M
它们在处理长文本任务中都一经达成踏实超越GPT-4o-mini,而且在处理百万级别长文本输入时可达成近7倍的提速!
(百万Tokens长文本,如果换算来看的话,不错是10本长篇演义、150小时演讲稿或3万行代码。)

现在,Qwen新模子干系的推理框架和时间申诉等本质均一经发布。
接下来,咱们就来不绝深远了解一下。

模子性能
领先,让咱们来望望Qwen2.5-1M系列模子在长潦倒文任务和漫笔本任务中的性能弘扬。
在潦倒文长度高达 100万Tokens的 “大海捞针” 式任务 ——Passkey Retrieval(密钥检索)中,Qwen2.5-1M系列模子展现出超卓性能,概况精确地从长度为1M的文档里检索出障翳信息。
值得一提的是,在总共系列模子中,仅7B模子出现了为数未几的不实。

关于更复杂的长潦倒文理除名务,琢磨团队罗致了RULER、LV-Eval和LongbenchChat等测试集。

概述这些着力来看,不错得到的关节论断如下:
一方面,Qwen2.5-1M系列模子比较之前的128K版块有权臣向上。
在多数长潦倒文任务场景中,它弘扬更为出色,终点是应酬杰出64K长度的任务时,概况更有用地处理信息加拿大pc28开奖网,展现出相较于128K版块更强的允洽性与处理才能。
另一方面,Qwen2.5-14B-Instruct-1M模子具备一定上风。
在与Qwen2.5-Turbo以及GPT-4o-mini的对比中,该模子在多个数据集上的测评收成更为凸起。
这意味着,在现存的长潦倒文模子可选范畴内,它当作开源模子,概况为使用者提供一种性能相对可靠、可替代其他居品的罗致,不外不同模子都有各自的特色与适用场景,仍需依据具体需求进行判断。
除了长序列任务的性能外,咱们相似宥恕这些模子在短序列上的弘扬。
团队在等闲使用的学术基准测试中比较了Qwen2.5-1M系列模子及之前的128K版块,并加入了GPT-4o-mini进行对比。

由此不错发现:
Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M在漫笔本任务上的弘扬与其128K版块特殊,确保了基本才能莫得因为加多了长序列处理才能而受到影响。与GPT-4o-mini比较,Qwen2.5-14B-Instruct-1M和Qwen2.5-Turbo在漫笔本任务上达成了独揽的性能,同期潦倒文长度是GPT-4o-mini的八倍。
怎样真金不怕火成的?
在先容完性能之后,咱们来看下Qwen新模子背后的关节时间。
主要不错分为三大法子,它们差别是长潦倒文熟谙、长度外推和疏淡留神力机制。

长序列的熟谙需要无数的计较资源,因此团队采纳了逐步彭胀长度的举止,在多个阶段将Qwen2.5-1M的潦倒文长度从4K彭胀到256K:
团队从预熟谙的Qwen2.5的一个中间检查点运行,此时潦倒文长度为4K。在预熟谙阶段,团队逐步将潦倒文长度从4K加多到256K,同期使用Adjusted Base Frequency的有贪图,将RoPE基础频率从10,000提高到10,000,000。
在监督微调阶段,团队分两个阶段进行以保握短序列上的性能:* 第一阶段:仅在短请示(最多32K长度)上进行微调,这里咱们使用与Qwen2.5的128K版块换取的数据和法子数,以赢得访佛的短任务性能。
第二阶段:羼杂短请示(最多32K)和长请示(最多256K)进行熟谙,以达成在增强长任务的性能的同期,保握短任务上的准确率。
在强化学习阶段,团队在漫笔本(最多8K长度)上熟谙模子。团队发现,即使在漫笔本上进行熟谙,也能很好地将东说念主类偏好对皆性能泛化到长潦倒文任务中。
通过以上熟谙,最终赢得了256K潦倒文长度的请示微调模子。

在上述熟谙经过中,模子的潦倒文长度仅为256K个Tokens。为了将其彭胀到1M ,团队采纳了长度外推的时间。
现时,基于旋转位置编码的大型言语模子会在长潦倒文任务中产素性能下跌,这主若是由于在计较留神力权重时,Query和Key之间的相对位置距离过大,在熟谙经过中未尝见过。
为了惩办这一问题,团队引入了Dual Chunk Attention (DCA),该举止通过将过大的相对位置,再行映射为较小的值,从而惩办了这一痛楚。
着力标明,即使是仅在32K长度上熟谙的Qwen2.5-7B-Instruct,在处理1M潦倒文的Passkey Retrieval任务中也能达到近乎完好的准确率。
这充分展示了DCA在无需非凡熟谙的情况下,也可权臣彭胀复古的潦倒文长度的普遍才能。

临了,即是疏淡留神力机制。
关于长潦倒文的言语模子,推理速率对用户体验至关热切。为为此,团队引入了基于MInference的疏淡留神力优化。
在此基础上,琢磨东说念主员还忽视了一系列改进:包括分块预填充、集成长度外推有贪图、疏淡性优化等。
通过这些改进,团队的推理框架在不同模子大小和GPU确立上,处理1M长度输入序列的预填充速率擢升了3.2倍到6.7倍。
临了,该技俩一经提供了在线体验的地址,感好奇艳羡的小伙伴不错去尝鲜了~
HuggingFace体验地址:https://huggingface.co/spaces/Qwen/Qwen2.5-1M-Demo
最高人民法院副院长茅仲华介绍,《纲要》由总体要求、主要任务和组织实施三大部分组成,主要任务包含了9个方面。记者看到,9项改革主要任务下设45个条目,并将进一步细分为200余项具体改革任务。
公开简历显示,杨子兴生于1959年10月,1984年8月加入中国共产党,1976年3月参加工作,北京大学公共管理硕士。
魔塔社区体验地址:https://www.modelscope.cn/studios/Qwen/Qwen2.5-1M-Demo
时间申诉:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf
参考连气儿:https://qwenlm.github.io/zh/blog/qwen2.5-1m/