diff --git a/README.md b/README.md index 762d5dc..a9b1f7a 100644 --- a/README.md +++ b/README.md @@ -1 +1,103 @@ # GPUCodeForces + +1. 评测数据集生成挑战赛项目 + +- **目标:** 建立一个专门用来测试GPU性能的数据集。数据集里的内容(即“样本”)可以从流行的工具和模型库中获取:PyTorch, PaddlePaddle, TensorFlow, Jax, MMCV, Transformers 等。 +- **评估规则:** 进入评价数据集数量最多的前 12 名 +-**评测资源:**MXC500单卡 +- **项目价值:** 形成标准的 GPU 评测数据集和评价方法 +- **参赛资格:** +只要你至少成功贡献了1个样本(即你的提交经过审核后并被选入“GPU CodeForces”数据集),就可以参赛。 + +#### 📤 提交要求及评分规则 + +- 每位选手按一个数据集(JSON 格式)提交,一个完整的GPU CUDA数据集需要包含以下几个部分: +1. 数据集样本描述: 清晰地阐述问题背景、输入、输出和预期功能。 +2. 输入数据生成函数: 用于生成各种规模和特性的输入数据的代码。 +3. 标准GT输出生函数 : 用于生成给定输入数据的正确输出,通常是Numpy-CPU实现,或原torch/paddle/tensorflow实现。 +4. 性能评估指标: 明确评估CUDA解决方案性能的标准(执行时间、吞吐量、内存带宽) +-数据集样本示例: +1.样本描述 +● 题目名称: 矩阵乘法 +● 背景: 矩阵乘法是科学计算、机器学习和图形学中的基本操作。优化其在GPU上的性能是CUDA编程中的一个核心挑战。 +● 任务: 给定两个矩阵A和B,计算它们的乘积C = A * B。 +2.输入数据生成函数 +编写一个脚本,根据给定的 M,K,N 参数,生成两个随机填充的浮点数矩阵A和B +import numpy as np + +def generate_matrix_multiplication_data(M, K, N): + """ + 生成矩阵乘法问题的输入数据。 + Args: + M, K, N: 矩阵A (M x K) 和矩阵B (K x N) 的维度。 + Returns: + tuple: (matrix_a, matrix_b) + """ + matrix_a = np.random.uniform(-100.0, 100.0, (M, K)).astype(np.float32) + matrix_b = np.random.uniform(-100.0, 100.0, (K, N)).astype(np.float32) + return matrix_a, matrix_b + +# 示例用法 +# M, K, N = 1024, 512, 256 +# A, B = generate_matrix_multiplication_data(M, K, N) +# print(f"Matrix A shape: {A.shape}") +# print(f"Matrix B shape: {B.shape}") + +3.输入数据生成函数 +编写一个函数,接收输入的矩阵A和B,使用CPU计算出它们的乘积C +import numpy as np + +def cpu_matrix_multiplication(matrix_a, matrix_b): + """ + 使用CPU计算矩阵乘法。 + Args: + matrix_a: 矩阵A (M x K) + matrix_b: 矩阵B (K x N) + Returns: + numpy.ndarray: 矩阵C (M x N) + """ + return np.dot(matrix_a, matrix_b) + +# 示例用法 +# A, B = generate_matrix_multiplication_data(1024, 512, 256) +# C_ref = cpu_matrix_multiplication(A, B) +# print(f"Reference C shape: {C_ref.shape}") + +4. 输入数据生成函数 +● 主要指标: GPU执行时间 (CUDA Kernel Execution Time)。 +● 次要指标: 内存带宽利用率、TFLOPS (如果适用)。 +● 评判标准: +● 正确性: CUDA解决方案的输出与标准输出的误差应在可接受的浮点误差范围内(例如,np.allclose 容忍度)。 +● 性能: 相同输入规模下,CUDA解决方案的执行时间越短越好。我们将提供基准测试环境和计时工具。 +● 计时示例 (伪代码/说明):在CUDA代码中,使用 cudaEvent_t 进行精确计时: +cudaEvent_t start, stop; +cudaEventCreate(&start); +cudaEventCreate(&stop); + +cudaEventRecord(start, 0); +// Call your CUDA kernel here +my_cuda_kernel<<>>(d_A, d_B, d_C, M, K, N); +cudaEventRecord(stop, 0); +cudaEventSynchronize(stop); + +float milliseconds = 0; +cudaEventElapsedTime(&milliseconds, start, stop); + +*若仍有疑问,请详见《评测数据集生成挑战赛样本和要求说明》。 +- **接受数量:**提交经过审核后并被选入数据集的样本总数 +- **评分方式:** + - 标准 GT 输出生成函数(Numpy-CPU / 原始框架实现):+2 分 + - CUDA 性能评估指标: + - 执行时间(GPU跑完整个任务的耗时):+5 分 + - 吞吐量(GPU单位时间内处理数据的量):+4 分 + - 内存带宽(GPU读写的速度):+3 分 + - (加分项)提供提示语(prompt)让大模型(LLM)生成对应 CUDA 代码,并且这份生成的代码也能提供上述的性能指标,则该提交样本也能得到对应分数。 + +#### 🏆 排名机制 + +1. 按“被选入样本的总数”从高到低排序 +2. 若数量相同: + - 比较所有样本的总分数之和,总分数高者优先 + - 若仍相同,比加分项分数高者优先 + +--- \ No newline at end of file