HIRING · 2026 · SHANGHAI / REMOTE

把 AI 塞进
每一寸硅基

QYQ 正在招 端侧 AI 推理工程师
我们做的事很朴素:让 7B 模型在千元机上跑出 30 token/s,让手机拍一张照片就能在端上完成 4K 修图,
让车机不用联网就能跟你聊天。够野,够落地。

投递简历 → 先看岗位
30 tok/s
7B 模型在千元机
< 20 ms
端到端推理延迟
INT4
精度不掉点的极限
0
PPT 工程师
// 01 — About QYQ

我们是谁

QYQ 是一家做端侧 AI 基础设施的公司。我们不追通用大模型的参数榜,我们追的是 「在真实硬件上跑得起来」 这件事。模型再强,下不动用户的手机就是空气。

// 02 — The Team

我们这群人

一群真的把模型塞进真机的人。不是在 PPT 上谈 AI,是真上手。

FROM 字节跳动 MiniMax 蔚来 等多个 AI 大厂
3+ 头部来源
Team Background
字节 / MiniMax / 蔚来等 AI 一线公司核心岗出身,主导过亿级用户的端侧 AI 落地。
硕博
Education
核心成员均硕士及以上,覆盖清华、北大、中科院、CMU、Stanford 等国内外院校。
8+ 年
Avg. Experience
平均 AI 行业经验 8 年以上。从业经历横跨推荐系统、大模型训练、推理引擎、芯片适配。

QYQ 的核心团队来自 字节跳动、MiniMax、蔚来 等头部 AI 与科技公司,硕博学历 占绝大多数,平均行业经验 8 年以上

我们做过千万 DAU 的端侧推理引擎,主导过大模型在车机、耳机、眼镜上的量产部署,把 7B 模型从 100ms 干到 20ms,把 INT8 量化精度掉点控制在 0.3% 以内——这些不是写在 roadmap 上的目标,是已经上线、已经跑在用户设备上的事。

这次招的端侧 AI 推理工程师,将直接和我们一起干——不是你做底层我们做 PPT,是同一个代码仓库、同一个 latency dashboard、同一台真机。

我们不是来追风口的。我们是真的在做这件事。

// 03 — The Role

端侧 AI 推理工程师

一个能把论文里的 SOTA 真正落到产线芯片上的角色。

Edge AI Inference Engineer

📍 上海 · 接受远程
💼 全职 · 不接受外包
📅 招聘周期:长期
C++PythonQuantizationCompiler TensorRT-LLMMLC-LLMllama.cpp Qualcomm SNPEApple CoreMLMediaTek APU vLLMTVM

// 你会做什么

  • LLMDiffusionASR 等模型塞进手机、车机、眼镜、耳机、平板、玩具——任何用户会摸到硅。
  • 负责 INT8 / INT4 / FP8 / 二值化 量化方案选型,精度掉点要算到小数点后两位,肉眼能看出来的那叫 bug。
  • 推理引擎算子优化(MatMul、Attention、KV Cache 调度、Prefill/Decode 分离),目标是把 latency 从 100ms 干到 20ms。
  • 调度 NPU / GPU / DSP 异构算力,写出一个能在高通、联发科、苹果、Intel NPU 上都跑得优雅的 runtime。
  • perfettosystracencuvTune 这些工具追到 cache miss、追到访存瓶颈、追到那条让你睡不着的慢路径。
  • 和硬件厂商 BD 撕 spec、撕 SDK、撕性能数据——撕赢了算你的。

// 我们希望你

  • C++ / Python 双修,能看懂别人写的神仙代码也能自己写出让别人看不懂的代码。
  • 熟悉至少一个端侧推理框架:TensorRT-LLMMLC-LLMllama.cppvLLMTVMNNAPICoreML——挑一个说出它的三处实现细节。
  • 量化:PTQ、QAT、GPTQ、AWQ、KV Cache 量化、Activation 校准、混合精度策略。以及 GPTQ 和 AWQ 在端侧部署上的真实差异。
  • 读得懂 model.onnx 内部结构,知道算子 fusion、constant folding、layout transform 怎么用。
  • 做过性能 profiling,知道首 token 延迟、稳态吞吐、内存峰值、prefill/decode 分离这些概念。
  • 愿意把模型跑在真机上,而不是永远在 A100 上自嗨。
// 04 — Bonus Points

这些是加分项

没有也欢迎来聊——但有的话,你的简历会直接被标红。

GitHub 上有推理优化项目

不是 fork 来的 star,是你自己写的、被别人 fork 的那种。

🧠
跑过端侧 LLM

llama.cpp、MLC-LLM、TinyChat、Llama on Phones——把 7B 塞进 4GB 内存的那种快感。

📱
玩过 NPU SDK

高通 QNN、联发科 Neuron SDK、苹果 ANE、华为 HiAI、Intel OpenVINO——至少玩过一个。

📖
看得懂芯片手册

知道 LPDDR5x 的带宽天花板、知道某 NPU 的 MAC 阵列是 systolic 还是 outer product。

🏎️
竞赛 / Benchmark

MLPerf、NN-Graph 优化比赛、Kaggle LLM Science Exam——做过且不是陪跑。

🛠️
写过推理引擎

不是调包,是从 Graph IR 到 Kernel 调度再到内存分配器,每一层都碰过。

// 05 — What We DON'T Require

我们不要求这些

不写这些不是因为我们忘了,是因为我们真的不在乎。

// 06 — Compensation

我们能给的

不画饼,不玩「期权 + 梦想」组合拳。数字写在这里,能给你就给,给不了写清楚。

¥50-100K
月薪 · 14-16 薪
视经验和能力上不封顶
期权
全员持股
早期加入比例更高
顶配机
MacBook Pro M4 Max
+ 任意真机调试设备
弹性
不打卡 / 远程友好
年假 15 天起
// 07 — Apply

投简历

附上你最得意的一次端侧推理优化 case —— 一段代码、一组 benchmark、一个跑分对比,都行。
我们更想看你 怎么把模型塞进真机,而不是怎么写一份漂亮的简历。

Ready?

把简历扔过来,我们 3 个工作日内给反馈。

主题格式建议:[Edge Inference] 你的名字 · 当前角色
也欢迎直接发你的 GitHub / 技术博客链接。
qyq@recruit — /bin/zsh
$ ./why_qyq --check
[scan] 候选人技术栈 ✔ matched
[scan] 端侧推理经验 ✔ matched
[scan] 对把模型跑在真机上的执念 ✔ matched
[scan] 不会用「赋能闭环」说话 ✘ nice try
 
$ cat ./our_promise.txt
我们不会让你做 PPT 工程师。
我们不会让你的 PR 在 review 里卡两周。
我们不会假装模型「差不多能跑」就算交付。
 
$ mail -s "join qyq" hire@qyq.ai < resume.pdf
→ 收到。我们会在 72 小时内回复。
 
$