Youtu-Tip 端侧AI助手

一个按键
AI 超级入口

按下热键或选中文本，Tip 随时待命。打造更智能的 Spotlight，带来极致便捷体验。

端侧模型
百分百隐私

内置 Youtu-llm 模型，完全离线运行。所有数据仅在本地处理，安全无忧。

读文件、看网页
全能助手

模拟键鼠操作、接入 MCP 服务器。在本地运行一个真正的多功能智能体。

桌面新技能
一学就掌握

「技能」机制允许 Tip 学习你教它的方法。定制化属于你的桌面自动化技能。

The Engine Inside

Youtu-LLM
小巧身躯，强悍性能

1.96B 参数，128K 上下文。专为 STEM、代码与智能体任务设计。
在轻量级模型中重新定义 SOTA。

🔬

STEM 优先设计

从词表构建到课程学习，一切以提升 STEM 能力和智能体能力为出发点。

🤖

原生智能体能力

128K 长上下文训练 + Agentic Mid-training，轻松应对多轮复杂端侧任务。

🚀

SOTA 性能 (MLA)

基于 dense MLA 架构，超越传统 GQA/MHA 范式，轻松集成现有生态。

性能基准测试

Benchmark	Youtu-LLM-2B	Qwen3-1.7B	SmoLM3-3B	Gemma3-4B	Llama3.1-8B
MMLU-Pro (Commonsense)	48.4%	34.9%	35.3%	29.4%	36.2%
GSM8K (STEM)	77.6%	68.2%	67.3%	38.5%	47.8%
MBPP+ (Coding)	81.8%	71.0%	66.1%	61.9%	62.7%
HumanEval (Coding)	64.6%	49.9%	34.8%	36.6%	36.0%
LiveCodeBench v6	9.7%	5.1%	2.9%	2.9%	3.4%
SWE-Bench-Verified (Agent)	17.7%	0.6%	7.2%	5.7%	-

* 部分数据摘录，查看 README 获取完整复现代码。

Benchmark	Youtu-LLM-2B	Qwen3-1.7B	SmoLM3-3B
GAIA (Agent)	33.9%	11.4%	11.7%
xbench (Agent)	19.5%	11.7%	13.9%
SWE-Bench-Verified	17.7%	0.6%	7.2%
EnConda-Bench	21.5%	10.8%	3.5%
τ²-Bench (Tool)	15.0%	2.6%	9.7%

* 对比同级别指令模型表现。

Vision-Language Model

Youtu-VL
视觉语言，统一智能

基于 Youtu-LLM 构建的 4B 参数视觉语言模型。首创 VLUAS 范式，
标准 VLM 架构实现视觉任务，无需额外模块。

🔗

VLUAS 统一监督

视觉-语言统一自回归监督，将视觉信号转化为自回归目标。联合重建视觉与文本 token，保留密集视觉信息的同时增强多模态理解。

👁️

无需额外模块

标准 VLM 架构原生支持视觉任务：分割、深度估计、定位、检测。单一模型，灵活应对各种视觉-语言需求。

性能基准测试

Benchmark	InternVL-3.5 4B	UFO 8B	Youtu-VL 4B
Visual Grounding
RefCOCO val	92.5%	91.8%	93.6%
RefCOCO testA	94.3%	94.3%	95.2%
RefCOCO+ val	87.6%	86.9%	90.1%
RefCOCOg test	89.3%	88.6%	92.9%
Semantic Segmentation
ADE20k	×	54.5%	54.2%
Cityscapes	×	-	70.4%
VOC20	×	-	92.5%
Referring Segmentation
RefCOCO val	×	80.0%	80.7%
RefCOCO testA	×	81.6%	82.0%
Depth Estimation
NYUv2 (δ1)	×	93.6%	90.4%
Cityscapes	×	-	92.7%
Object Counting
TallyQA-Simple	77.6%	×	85.1%
CountBench	79.4%	×	88.6%

* × 表示模型不支持该任务。

Benchmark	Qwen3-VL 8B	InternVL-3.5 4B	Youtu-VL 4B
General VQA
MMBench_EN	84.5%	80.3%	83.9%
MMStar	70.9%	65.0%	71.1%
MME (/2800)	-	2272	2384
ScienceQA_val	-	-	97.0%
Multimodal Reasoning
VisuLogic	22.5%	-	25.7%
MathVista_mini	77.2%	77.1%	76.5%
MathVerse_mini	62.1%	45.8%	56.5%
VLMsAreBlind	74.0%	-	88.9%
OCR & Document
AI2D_test	85.7%	82.6%	85.6%
DocVQA_val	96.1%	92.4%	94.4%
ChartQA_test	89.6%	86.0%	85.3%
GUI Agent
ScreenSpot Pro	54.6%	-	59.6%
OSWorld	33.9%	-	38.8%
Real-World
RealWorldQA	71.5%	66.3%	74.6%

* 对比同级别 VLM 指令模型表现。

Open Source Framework

Build with
Youtu-Agent

Youtu-Tip 的强大动力源泉。一个灵活、高性能的智能体构建框架。支持自动化生成、混合策略优化，助你轻松构建 SOTA 级应用。

⚡️

自动化智能体生成

描述需求，Meta-Agent 自动编写工具代码与配置。

🧠

无需训练的持续进化

独创 Training-Free GRPO，低成本积累经验，越用越强。

🏆

SOTA 性能验证

WebWalkerQA (71.47%) 与 GAIA (72.8%) 领跑者。

View on GitHub →

research_agent.yaml

agent:

instructions: "You are a helpful research assistant..."

env:

config: {}

context_manager:

config: {}

toolkits:

search:

activated_tools: ["search", "web_qa"]

python_executor:

activated_tools: ["execute_python_code"]

Sample Configuration

一个按键AI 超级入口

端侧模型百分百隐私

读文件、看网页全能助手

桌面新技能一学就掌握

Youtu-LLM 小巧身躯，强悍性能

STEM 优先设计

原生智能体能力

SOTA 性能 (MLA)

性能基准测试

Youtu-VL 视觉语言，统一智能

VLUAS 统一监督

无需额外模块

性能基准测试

Build with Youtu-Agent

自动化智能体生成

无需训练的持续进化

SOTA 性能验证

一个按键
AI 超级入口

端侧模型
百分百隐私

读文件、看网页
全能助手

桌面新技能
一学就掌握

Youtu-LLM
小巧身躯，强悍性能

Youtu-VL
视觉语言，统一智能

Build with
Youtu-Agent