ericwtlin
2025/2/11 16:34:35
职位概述
团队介绍:字节跳动国际电商 智能对话团队,团队负责国际化电商业务下的智能客服 等对话场景。我们致力于推动大型语言模型(LLM)技术的民主化,通过算法创新、数据高效利用与工程优化,显著降低LLM训练与部署的资源门槛,打破“大模型是资源垄断者游戏”的固有观念,助力全球研究者与开发者共同探索AGI的未来。
现招募在高效LLM训练与优化领域有深厚技术积累的研究者,共同探索以下核心方向:
---
研究方向
1. 参数高效训练与微调(PEFT)
- 开发轻量级微调技术(如LoRA、QLoRA、Prompt Tuning),优化模型可训练参数占比与显存占用。
- 研究混合精度训练、4bit量化(NF4)与分页优化器技术,实现消费级GPU上的百亿级模型训练。
2. 数据高效学习与知识激发
- 探索小样本/零样本场景下的数据高效训练(如LIMO假设、元强化学习)。
- 构建合成数据生成框架(如代码题解、数学推理链),减少对人工标注的依赖。
3. 模型架构与训练策略创新
- 设计动态稀疏激活架构(如MoE混合专家系统),提升模型容量与计算效率的平衡。
- 优化注意力机制(GQA、Flash Attention)、KV Cache压缩与长上下文扩展技术。
4. 分布式训练与低成本部署
- 开发多维度并行训练框架(数据/张量/流水线并行),适配中小规模计算集群。
- 研究模型蒸馏、量化与边缘设备适配技术(如手机端部署)。
---
任职要求
- 教育背景: 计算机科学、人工智能、数学等相关领域博士/硕士,或本科+3年以上研究经验。
- 技术能力:
- 熟悉PyTorch/TensorFlow框架,有LLM训练调优经验(如Megatron-LM、DeepSpeed)。
- 深入理解Transformer架构、分布式训练、模型压缩技术。
- 在以下至少一个领域有研究积累:高效微调、数据增强、模型量化、强化学习。
- 研究素养: 在顶级会议(NeurIPS/ICML/ACL等)发表过相关论文,或主导过开源项目(如Hugging Face模型库贡献)。
- 加分项:
- 熟悉多模态模型训练(如视觉-语言对齐)、自监督预训练。
- 有开源社区协作经验或工具链开发经历(如定制化训练框架)。
时间地点
- 实习天数:至少半年,一周3天及以上;
- 实习地点:北京、上海、杭州、珠海、新加坡、美国均可; 北京优先;
---
我们提供
- 前沿探索: 参与定义下一代高效LLM技术,推动AGI技术民主化进程。
- 资源支持: 灵活使用内部超算集群(千卡级算力)与海量多模态数据集。
- 成长空间: 技术成果可开源或发表于顶级会议,支持个人IP建设与职业发展。
感兴趣的,发送【简历、可实习日期、一周X天、可实习地点】至linwutao@bytedance.com;