Pytorch GPU - 搜索 News

PyTorch CUDA内存管理优化：深度理解GPU资源分配与缓存机制

在深度学习工程实践中，当训练大型模型或处理大规模数据集时，上述错误信息对许多开发者而言已不陌生。这是众所周知的CUDA out of memory错误——当GPU尝试为张量分配空间而内存不足时发生。这种情况尤为令人沮丧，特别是在已投入大量时间优化模型和代码后 ...

腾讯网

PyTorch官宣：告别CUDA，GPU推理迎来Triton加速新时代

【新智元导读】用英伟达的GPU，但可以不用CUDA？PyTorch官宣，借助OpenAI开发的Triton语言编写内核来加速LLM推理，可以实现和CUDA类似甚至更佳的性能。试问，有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰？又有多少开发者曾因为频频闪烁的警报「 ...

腾讯网

英伟达新一代GPU架构（50系列显卡）PyTorch兼容性解决方案

点击上方“Deephub Imba”,关注公众号,好文章不错过 ! 随着NVIDIA不断推出基于新架构的GPU产品，机器学习框架需要相应地更新以支持这些硬件。本文记录了在RTX 5070 Ti上运行PyTorch时遇到的CUDA兼容性问题，并详细分析了问题根源及其解决方案，以期为遇到类似情况的 ...

电子工程专辑

PyTorch宣布支持苹果M1芯片GPU加速：训练快6倍，推理提升21倍

更多精彩内容请点击上方蓝字关注我们吧！今年 3 月，苹果发布了其自研 M1 芯片的最终型号 M1 Ultra，它由 1140 亿个晶体管组成，是有史以来个人计算机中最大的数字。苹果宣称只需 1/3 的功耗，M1 Ultra 就可以实现比桌面级 GPU RTX 3090 更高的性能。随着用户 ...

9 天

32B逆袭GPT-5.2：首个端到端GPU编程智能体框架StitchCUDA问世

结果是显著的：StitchCUDA 将 Hacking 率从 Kevin-32B 的 52% 降至 16%， Hacking 从 4 次降至 0 次。而去除 Rubric 的 StitchCUDA-A 变体，Hacking 率回升至 32%，进一步验证了 Rubric Reward 的因果效应。

快科技

努力替代CUDA！摩尔线程Torch-MUSA插件升级v1.3.0 完全开源

快科技10月31日消息，摩尔线程宣布，针对PyTorch深度学习框架的MUSA插件“Torch-MUSA”，迎来重大更新新版本v1.3.0，全面兼容PyTorch 2.2.0。新版进一步提升了PyTorch在摩尔线程GPU MUSA架构上的模型性能与覆盖度，能更友好地支持模型迁移到摩尔线程GPU。 PyTorch是全球 ...

电子工程专辑

PyTorch官宣：告别CUDA，GPU推理迎来Triton加速新时代

【导读】用英伟达的GPU，但可以不用CUDA？PyTorch官宣，借助OpenAI开发的Triton语言编写内核来加速LLM推理，可以实现和CUDA类似甚至更佳的性能。试问，有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰？又有多少开发者曾因为频频闪烁的警报「CUDA版本 ...

36氪

谷歌狂喜：JAX性能超越Pytorch、TensorFlow，或成GPU推理训练最快选择

7项指标排名第一。 JAX在最近的基准测试中的性能已经不声不响地超过了Pytorch和TensorFlow，也许未来会有更多的大模型诞生在这个平台上。谷歌在背后的默默付出终于得到了回报。谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow，7项指标排名第一。

36氪

AI生成苹果Metal内核，PyTorch推理速度提升87%

AI自动生成的苹果芯片Metal内核，比官方的还要好？ Gimlet Labs的最新研究显示，在苹果设备上，AI不仅能自动生成Metal内核，还较基线内核实现了87%的PyTorch推理速度提升。更惊人的是，AI生成的Metal内核还在测试的215个PyTorch模块上实现了平均1.87倍的加速，其中一些 ...

来自MSN