News

首先在数据上,Qwen3预训练使用的数据约是Qwen2.5的2倍,达到36万亿token,涵盖119种语言和方言。 并使用Qwen2.5处理数据。用Qwen2.5-VL提取PDF中的文本 ...
阿里通义大模型新成员Qwen3系列模型终于亮相! 智东西4月29日报道,今日凌晨4点,阿里云正式开源Qwen3系列模型,包含2个MoE模型、6个稠密模型。
其中,千问3的30B参数MoE模型实现了10倍以上的模型性能杠杆提升,仅激活3B就能媲美上代Qwen2.5-32B模型性能;千问3的稠密模型性能继续突破,一半的 ...
对于小一点的 MoE 模型:Qwen3-30B-A3B,其激活量只有 QwQ-32B 的 10%,其表现超过 DeepSeek V3/GPT-4o Qwen3-4B 这样的小模型,也能匹敌 Qwen2.5-72B-Instruct 「思考 ...
甚至像 Qwen3-4B 这样的小模型,也能达到 Qwen2.5-72B-Instruct 的水平。 除了上述两款 MOE 模型,此次还发布了 6 款 Dense 模型,分别是:Qwen3-32B、Qwen3-14B ...
值得注意的是,小米官方表示,MiMo-7B在相同强化学习训练数据下,数学与代码领域的表现显著优于当前业界广泛使用的DeepSeek-R1-Distill-7B和Qwen2.5-32B ...
今天,kimi 又发布了新的开源项目 —— 一个全新的通用音频基础模型 Kimi-Audio,支持语音识别、音频理解、音频转文本、语音对话等多种任务,在十 ...
甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。 性能大幅提升的同时,Qwen3 的部署成本还大幅下降,仅需 4 张 H20 即可部署满血版 ...
These improvements, along with others, greatly boosted Qwen3’s capabilities compared to its predecessor, Qwen2, Alibaba said. None of the Qwen3 models seem to be head and shoulders above the top ...
Alibaba's Qwen2.5-Omni-7B AI model enhances enterprise applications, driving higher conversion rates and reducing merchant churn on Alibaba.com, boosting recurring revenue. Consolidated revenues ...
具体来看,Qwen3 的性能飞跃源于三大核心升级: 数据规模翻倍,覆盖多语言与专业领域预训练数据量从 Qwen2.5 的 18 万亿 token 扩展至 36 万亿 token,新增 119 种语言及方言支持,涵盖 PDF 文档解析 ...
官方apt仓库提供deepseek-r1-distill-qwen-1.5b、Qwen2.5-0.5B 以及 Qwen2.5-1.5B等丰富大模型资源,以及文本转语音模型(melotts)、语音转文本模型(paraformer)和视觉模型(yoloV8、bytetrack、lightrack)等模型。