评测数据集生成挑战赛(GPUCodeForces)
欢迎参加 评测数据集生成挑战赛 📊!
本比赛旨在构建一个标准化、可用于 GPU 性能测试的评测数据集,帮助开发者更高效地比较不同硬件和框架的性能表现。
🧠 比赛背景简介
在 AI 模型开发和部署中,GPU 性能评测是一个非常重要的环节。
不同 GPU、不同深度学习框架(如 PyTorch、TensorFlow、PaddlePaddle 等)在运行相同任务时,速度、吞吐量、内存占用等表现差异很大。
本次挑战赛希望通过社区的力量,构建一个标准化、带权重的评测数据集,让 GPU 性能比较更加科学、公正。
🎯 比赛目标
- 从 PyTorch、PaddlePaddle、TensorFlow、Jax、MMCV、Transformers 等框架中收集并生成评测样本。
- 为每个样本提供标准输出和性能指标,确保结果可复现。
- 最终形成 GPU CodeForces 数据集和评价方法。
📥 如何参与提交?
✅ 参赛资格
- 你提交的样本中,至少有 1 个样本被评审通过并正式整合到“GPU CodeForces” 数据集,即可算作有效参赛。
📦 提交内容
- 一个 JSON 格式的数据集文件(详细格式请参考《评测数据集生成挑战赛样本和要求说明》)。
- 每个数据集需包含:
- 测试样本(代码或数据)
- 标准 GT(Ground Truth)输出生成函数(基于 CPU/Numpy 或原始框架)
- CUDA 性能评估指标(执行时间、吞吐量、内存带宽)
📈 评分规则
📊 基础得分
| 内容 |
分值 |
| 提供标准 GT 输出生成函数(Numpy-CPU / 原始框架实现) |
+2 分 |
| CUDA 执行时间评估 |
+5 分 |
| CUDA 吞吐量评估 |
+4 分 |
| CUDA 内存带宽评估 |
+3 分 |
✨ 加分项
| 内容 |
分值 |
| 提供 Prompt 让 LLM 生成对应的 CUDA 代码,并同样进行性能评价 |
额外加分 |
接受数量 = 提交并被评审通过的样本总数
🏅 排名机制
- 优先按接受数量从高到低排序
- 若数量相同:
- 比较总评分高者优先
- 若仍相同,比加分项得分高者优先
📚 术语解释
- 评测数据集:用来测试 GPU 性能的一组标准化样本,包括代码、输入数据和预期结果。
- GT(Ground Truth):标准参考答案或结果,用来验证程序运行是否正确。
- 吞吐量(Throughput):每秒钟能处理的数据量,越高表示 GPU 处理能力越强。
- 内存带宽(Memory Bandwidth):单位时间内 GPU 内存与计算核心之间的数据传输速度。
- Prompt:引导大语言模型(LLM)生成代码或内容的提示词。
- LLM:Large Language Model,大语言模型,如 ChatGPT、LLaMA 等。
📬 联系与帮助
如需更多信息或格式说明,请查看官方文档或在本仓库提交 Issue 进行讨论。
祝你挑战成功,贡献出高质量的 GPU 评测数据集!🚀