|
1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980 |
- # 评测数据集生成挑战赛(GPUCodeForces)
-
- 欢迎参加 **评测数据集生成挑战赛** 📊!
- 本比赛旨在构建一个标准化、可用于 GPU 性能测试的评测数据集,帮助开发者更高效地比较不同硬件和框架的性能表现。
-
- ---
-
- ## 🧠 比赛背景简介
-
- 在 AI 模型开发和部署中,**GPU 性能评测**是一个非常重要的环节。
- 不同 GPU、不同深度学习框架(如 PyTorch、TensorFlow、PaddlePaddle 等)在运行相同任务时,速度、吞吐量、内存占用等表现差异很大。
- 本次挑战赛希望通过社区的力量,**构建一个标准化、带权重的评测数据集**,让 GPU 性能比较更加科学、公正。
-
- ---
-
- ## 🎯 比赛目标
-
- - 从 **PyTorch、PaddlePaddle、TensorFlow、Jax、MMCV、Transformers** 等框架中收集并生成评测样本。
- - 为每个样本提供**标准输出**和**性能指标**,确保结果可复现。
- - 最终形成 **GPU CodeForces** 数据集和评价方法。
-
- ---
-
- ## 📥 如何参与提交?
-
- ### ✅ 参赛资格
- - 你提交的样本中,**至少有 1 个样本被评审通过并正式整合到“GPU CodeForces” 数据集**,即可算作有效参赛。
-
- ### 📦 提交内容
- - **一个 JSON 格式的数据集文件**(详细格式请参考《评测数据集生成挑战赛样本和要求说明》)。
- - 每个数据集需包含:
- 1. **测试样本**(代码或数据)
- 2. **标准 GT(Ground Truth)输出生成函数**(基于 CPU/Numpy 或原始框架)
- 3. **CUDA 性能评估指标**(执行时间、吞吐量、内存带宽)
-
- ---
-
- ## 📈 评分规则
-
- ### 📊 基础得分
- | 内容 | 分值 |
- |------|------|
- | 提供标准 GT 输出生成函数(Numpy-CPU / 原始框架实现) | +2 分 |
- | CUDA 执行时间评估 | +5 分 |
- | CUDA 吞吐量评估 | +4 分 |
- | CUDA 内存带宽评估 | +3 分 |
-
- ### ✨ 加分项
- | 内容 | 分值 |
- |------|------|
- | 提供 Prompt 让 LLM 生成对应的 CUDA 代码,并同样进行性能评价 | 额外加分 |
-
- > **接受数量** = 提交并被评审通过的样本总数
-
- ---
-
- ## 🏅 排名机制
-
- 1. **优先按接受数量从高到低排序**
- 2. 若数量相同:
- - 比较总评分高者优先
- - 若仍相同,比加分项得分高者优先
-
- ---
-
- ## 📚 术语解释
-
- - **评测数据集**:用来测试 GPU 性能的一组标准化样本,包括代码、输入数据和预期结果。
- - **GT(Ground Truth)**:标准参考答案或结果,用来验证程序运行是否正确。
- - **吞吐量(Throughput)**:每秒钟能处理的数据量,越高表示 GPU 处理能力越强。
- - **内存带宽(Memory Bandwidth)**:单位时间内 GPU 内存与计算核心之间的数据传输速度。
- - **Prompt**:引导大语言模型(LLM)生成代码或内容的提示词。
- - **LLM**:Large Language Model,大语言模型,如 ChatGPT、LLaMA 等。
-
- ---
-
- ## 📬 联系与帮助
-
- 如需更多信息或格式说明,请查看官方文档或在本仓库提交 Issue 进行讨论。
- 祝你挑战成功,贡献出高质量的 GPU 评测数据集!🚀
|