QYQ · 端侧 AI 推理工程师招聘

// 02 — The Team

我们这群人

一群真的把模型塞进真机的人。不是在 PPT 上谈 AI，是真上手。

FROM 字节跳动 → MiniMax → 蔚来 → 等多个 AI 大厂

3+ 头部来源

Team Background

字节 / MiniMax / 蔚来等 AI 一线公司核心岗出身，主导过亿级用户的端侧 AI 落地。

硕博

Education

核心成员均硕士及以上，覆盖清华、北大、中科院、CMU、Stanford 等国内外院校。

8+ 年

Avg. Experience

平均 AI 行业经验 8 年以上。从业经历横跨推荐系统、大模型训练、推理引擎、芯片适配。

QYQ 的核心团队来自 字节跳动、MiniMax、蔚来 等头部 AI 与科技公司，硕博学历 占绝大多数，平均行业经验 8 年以上。

我们做过千万 DAU 的端侧推理引擎，主导过大模型在车机、耳机、眼镜上的量产部署，把 7B 模型从 100ms 干到 20ms，把 INT8 量化精度掉点控制在 0.3% 以内——这些不是写在 roadmap 上的目标，是已经上线、已经跑在用户设备上的事。

这次招的端侧 AI 推理工程师，将直接和我们一起干——不是你做底层我们做 PPT，是同一个代码仓库、同一个 latency dashboard、同一台真机。

我们不是来追风口的。我们是真的在做这件事。

// 03 — The Role

端侧 AI 推理工程师

一个能把论文里的 SOTA 真正落到产线芯片上的角色。

Edge AI Inference Engineer

📍 上海 · 接受远程

💼 全职 · 不接受外包

📅 招聘周期：长期

C++PythonQuantizationCompiler TensorRT-LLMMLC-LLMllama.cpp Qualcomm SNPEApple CoreMLMediaTek APU vLLMTVM

// 你会做什么

把 LLM、Diffusion、ASR 等模型塞进手机、车机、眼镜、耳机、平板、玩具——任何用户会摸到硅。
负责 INT8 / INT4 / FP8 / 二值化 量化方案选型，精度掉点要算到小数点后两位，肉眼能看出来的那叫 bug。
做 推理引擎算子优化（MatMul、Attention、KV Cache 调度、Prefill/Decode 分离），目标是把 latency 从 100ms 干到 20ms。
调度 NPU / GPU / DSP 异构算力，写出一个能在高通、联发科、苹果、Intel NPU 上都跑得优雅的 runtime。
用 perfetto、systrace、ncu、vTune 这些工具追到 cache miss、追到访存瓶颈、追到那条让你睡不着的慢路径。
和硬件厂商 BD 撕 spec、撕 SDK、撕性能数据——撕赢了算你的。

// 我们希望你

C++ / Python 双修，能看懂别人写的神仙代码也能自己写出让别人看不懂的代码。
熟悉至少一个端侧推理框架：TensorRT-LLM、MLC-LLM、llama.cpp、vLLM、TVM、NNAPI、CoreML——挑一个说出它的三处实现细节。
懂量化：PTQ、QAT、GPTQ、AWQ、KV Cache 量化、Activation 校准、混合精度策略。以及 GPTQ 和 AWQ 在端侧部署上的真实差异。
读得懂 model.onnx 内部结构，知道算子 fusion、constant folding、layout transform 怎么用。
做过性能 profiling，知道首 token 延迟、稳态吞吐、内存峰值、prefill/decode 分离这些概念。
愿意把模型跑在真机上，而不是永远在 A100 上自嗨。

// 04 — Bonus Points

这些是加分项

没有也欢迎来聊——但有的话，你的简历会直接被标红。

⭐

GitHub 上有推理优化项目

不是 fork 来的 star，是你自己写的、被别人 fork 的那种。

🧠

跑过端侧 LLM

llama.cpp、MLC-LLM、TinyChat、Llama on Phones——把 7B 塞进 4GB 内存的那种快感。

📱

玩过 NPU SDK

高通 QNN、联发科 Neuron SDK、苹果 ANE、华为 HiAI、Intel OpenVINO——至少玩过一个。

📖

看得懂芯片手册

知道 LPDDR5x 的带宽天花板、知道某 NPU 的 MAC 阵列是 systolic 还是 outer product。

🏎️

竞赛 / Benchmark

MLPerf、NN-Graph 优化比赛、Kaggle LLM Science Exam——做过且不是陪跑。

🛠️

写过推理引擎

不是调包，是从 Graph IR 到 Kernel 调度再到内存分配器，每一层都碰过。

// 05 — What We DON'T Require

我们不要求这些

不写这些不是因为我们忘了，是因为我们真的不在乎。

~~985 / 211 / QS Top 100 学历背景~~——我们看过太多普通学校出来的硬核工程师。
~~大厂光环~~——大厂能给你的我们都懂，但我们的端侧场景你大概率没碰过。
~~刷穿 LeetCode~~——能写好内存池和 SIMD intrinsics 比刷题重要得多。
~~会用「赋能 / 抓手 / 闭环 / 范式」说话~~——开会我们只讨论 latency 和算子吞吐。
~~年龄 / 工龄 / 婚姻状况 / 户籍~~——以上信息我们看都不看。
~~每天 12 小时在工位~~——做完就走，做不完请告诉我们，别闷着。

// 07 — Apply

投简历

附上你最得意的一次端侧推理优化 case —— 一段代码、一组 benchmark、一个跑分对比，都行。
我们更想看你 怎么把模型塞进真机，而不是怎么写一份漂亮的简历。

Ready?

把简历扔过来，我们 3 个工作日内给反馈。

hire@qyq.ai

主题格式建议：[Edge Inference] 你的名字 · 当前角色
也欢迎直接发你的 GitHub / 技术博客链接。

qyq@recruit — /bin/zsh

$ ./why_qyq --check
[scan] 候选人技术栈 ✔ matched
[scan] 端侧推理经验 ✔ matched
[scan] 对把模型跑在真机上的执念 ✔ matched
[scan] 不会用「赋能闭环」说话 ✘ nice try
 
$ cat ./our_promise.txt
我们不会让你做 PPT 工程师。
我们不会让你的 PR 在 review 里卡两周。
我们不会假装模型「差不多能跑」就算交付。
 
$ mail -s "join qyq" hire@qyq.ai < resume.pdf
→ 收到。我们会在 72 小时内回复。
 
$ 

把 AI 塞进
每一寸硅基

我们是谁