ccf-ai-infra
/
GPUCodeForces

# 评测数据集生成挑战赛（GPUCodeForces）

欢迎参加 **评测数据集生成挑战赛** 📊！  
本比赛旨在构建一个标准化、可用于 GPU 性能测试的评测数据集，帮助开发者更高效地比较不同硬件和框架的性能表现。

---

## 🧠 比赛背景简介

在 AI 模型开发和部署中，**GPU 性能评测**是一个非常重要的环节。  
不同 GPU、不同深度学习框架（如 PyTorch、TensorFlow、PaddlePaddle 等）在运行相同任务时，速度、吞吐量、内存占用等表现差异很大。  
本次挑战赛希望通过社区的力量，**构建一个标准化、带权重的评测数据集**，让 GPU 性能比较更加科学、公正。

---

## 🎯 比赛目标

- 从 **PyTorch、PaddlePaddle、TensorFlow、Jax、MMCV、Transformers** 等框架中收集并生成评测样本。
- 为每个样本提供**标准输出**和**性能指标**，确保结果可复现。
- 最终形成 **GPU CodeForces** 数据集和评价方法。

---

## 📥 如何参与提交？

### ✅ 参赛资格
- 你提交的样本中，**至少有 1 个样本被评审通过并正式整合到“GPU CodeForces” 数据集**，即可算作有效参赛。

### 📦 提交内容
- **一个 JSON 格式的数据集文件**（详细格式请参考《评测数据集生成挑战赛样本和要求说明》）。
- 每个数据集需包含：
  1. **测试样本**（代码或数据）
  2. **标准 GT（Ground Truth）输出生成函数**（基于 CPU/Numpy 或原始框架）
  3. **CUDA 性能评估指标**（执行时间、吞吐量、内存带宽）

---

## 📈 评分规则

### 📊 基础得分
| 内容 | 分值 |
|------|------|
| 提供标准 GT 输出生成函数（Numpy-CPU / 原始框架实现） | +2 分 |
| CUDA 执行时间评估 | +5 分 |
| CUDA 吞吐量评估 | +4 分 |
| CUDA 内存带宽评估 | +3 分 |

### ✨ 加分项
| 内容 | 分值 |
|------|------|
| 提供 Prompt 让 LLM 生成对应的 CUDA 代码，并同样进行性能评价 | 额外加分 |

> **接受数量** = 提交并被评审通过的样本总数

---

## 🏅 排名机制

1. **优先按接受数量从高到低排序**
2. 若数量相同：
   - 比较总评分高者优先
   - 若仍相同，比加分项得分高者优先

---

## 📚 术语解释

- **评测数据集**：用来测试 GPU 性能的一组标准化样本，包括代码、输入数据和预期结果。
- **GT（Ground Truth）**：标准参考答案或结果，用来验证程序运行是否正确。
- **吞吐量（Throughput）**：每秒钟能处理的数据量，越高表示 GPU 处理能力越强。
- **内存带宽（Memory Bandwidth）**：单位时间内 GPU 内存与计算核心之间的数据传输速度。
- **Prompt**：引导大语言模型（LLM）生成代码或内容的提示词。
- **LLM**：Large Language Model，大语言模型，如 ChatGPT、LLaMA 等。

---

## 📬 联系与帮助

如需更多信息或格式说明，请查看官方文档或在本仓库提交 Issue 进行讨论。  
祝你挑战成功，贡献出高质量的 GPU 评测数据集！🚀