开源多媒体编解码器项目 FFmpeg 的开发者通过手写实现优化了 AVX-512 指令集的汇编代码路径,加速 FFmpeg 多媒体处理库中的特定功能,相比标准实现,性能提升了 3-94 倍。手写汇编代码路径在视频行业是相当少见的。AVX-512 支持使用 512 位寄存器并行处理大量数据,一次操作能处理最多 16 个单精度 FLOPS 或 8 个双精度 FLOPS,它对视频和图像处理等计算密集型任务很有用。英特尔 12 到 14 代酷睿处理器禁用了 AVX-512 指令集,目前完整支持 AVX-512 的消费者 CPU 是 AMD 最近上市的 Ryzen 9000 系列处理器。
https://news.slashdot.org/story/24/11/04/2140206/ffmpeg-devs-boast-of-up-to-94x-performance-boost-after-implementing-handwritten-avx-512-assembly-code
Python 取代 JavaScript 成为 GitHub 最受欢迎语言
根据 GitHub 的年度开发者报告,Python 取代 JavaScript 成为 GitHub 最受欢迎的语言,而印度将在 2028 年超过美国成为 GitHub 开发者人数最多的国家。GitHub 称 AI 并没有取代程序员的工作,而是推动了更多人用他们的母语写代码。2024 年 GitHub 上生成式 AI 项目贡献量增长 59%,项目总数增长 98%,许多贡献来自印度、德国、日本和新加坡等国。美国开发者人数仍然最多,其次是印度、中国、巴西、英国、俄罗斯、德国、印度尼西亚、日本和加拿大。GitHub 目前有 5.18 亿个项目,同比增长 25%。
https://github.blog/news-insights/octoverse/octoverse-2024/
努力替代CUDA!摩尔线程Torch-MUSA插件升级v1.3.0 完全开源
快科技10月31日消息,摩尔线程宣布,针对PyTorch深度学习框架的MUSA插件“Torch-MUSA”,迎来重大更新新版本v1.3.0,全面兼容PyTorch 2.2.0。
新版进一步提升了PyTorch在摩尔线程GPU MUSA架构上的模型性能与覆盖度,能更友好地支持模型迁移到摩尔线程GPU。
PyTorch是全球广泛使用的深度学习框架,在自然语言处理、计算机视觉、推荐系统等多个领域展现出了强大的应用能力。
摩尔线程Torch-MUSA专为PyTorch提供MUSA后端加速支持,使得用户能够在MUSA架构上流畅运行深度学习模型,充分发挥国产全功能GPU的强大计算能力。
自发布以来,Torch-MUSA已历经多个版本的迭代,不断提升兼容性与性能。
Torch-MUSA v1.0.0版本开始,率先支持了PyTorch 2.0,带来了显著的计算加速和易用性。
经过持续的开发与优化,最新发布的v1.3.0版本已全面支持PyTorch 2.2.0,极大提升了模型训练与推理的效率,满足了更多高性能深度学习任务的需求。
目前,Torch-MUSA已完全开源,开发者可通过访问GitHub获取源代码。
摩尔线程鼓励开发者积极参与该项目的开发与改进,通过提交问题报告(issue)或代码修改申请(pull request)等方式,共同促进Torch-MUSA以及MUSA软件生态的持续进步和发展。
▼ Torch-MUSA开源地址:
https://github.com/MooreThreads/torch_musa
▼ 功能特性
在Torch-MUSA中,用户只需指定torch.device(“musa”),即可轻松将现有的PyTorch模型迁移到MUSA架构的GPU上运行,无需大幅修改代码。
Torch-MUSA完全兼容PyTorch的自动微分和动态图机制,支持多种常用的神经网络模块及优化算法,并加速了关键深度学习算子的计算。
此外,Torch-MUSA还支持多种PyTorch特性,包括DDP、JIT、FSDP、Profiler、Extension等。
▼ 版本迭代
v1.1.0:
初次发布,支持PyTorch 2.0,提供基础张量操作和常见神经网络层的MUSA加速。
v1.2.0:
进一步扩展算子支持,支持了完整功能的Profiler、MUSA Extension,并增加了Torch-MUSA专有特性如compare_tool、musa_converter,帮助用户更快的定位模型精度问题。
v1.3.0:
支持PyTorch2.2.0,性能进一步提升,支持FSDP,支持更复杂的模型和更大规模的数据处理。
▼ 未来计划
Torch-MUSA将继续跟进PyTorch的版本更新,计划支持更高版本的PyTorch。
GNOME 48 桌面环境发布日期 计划于 2025 年 3 月 19 日
虽然我们大多数人已经享受了 GNOME 47 “丹佛” 桌面环境系列的许多新功能和改进,但 GNOME 项目已经开始开发下一个主要版本,GNOME 48,其发布日期定于 2025 年 3 月 19 日。
GNOME 48 将在 2024 年 12 月 6 日至 12 月 8 日在卡纳塔克邦班加罗尔举行的 GNOME 亚洲峰会的主办城市之后被称为“班加罗尔”,GNOME 开发者已经发布了发布时间表。
根据发布时间表,GNOME 48 alpha 将于 2025 年 1 月 4 日公开测试,GNOME 48 beta 计划于 2 月 1 日发布,而候选发布 (RC) 里程碑将于 2025 年 3 月 1 日发布。GNOME 48 桌面环境的最终发布日期定为 2025 年 3 月 19 日。
如果您想在日历中标记 GNOME 48,您可以一目了然地查看它:
- GNOME 48 Alpha – 2025 年 1 月 4 日
- GNOME 48 测试版 – 2025 年 2 月 1 日
- API/ABI/功能/UI/字符串公告冻结 – 2025 年 2 月 1 日
- 字符串冻结 – 2025 年 2 月 22 日
- GNOME 48 候选版本 – 2025 年 3 月 1 日
- GNOME 48 最终版 – 2025 年 3 月 19 日
当然,现在谈论 GNOME 48 桌面环境的新特性和主要变化还为时过早,但我希望看到新的、非常规的窗口管理系统,它使用此版本中实现的马赛克平铺行为。
我知道 GNOME 48 中将包含的一件事是大大改进的 Loupe 图像查看器,它正在获得一些令人兴奋的功能,例如新的缩放控件,允许用户输入特定的缩放百分比,返回到原来的“最适合”缩放级别,并列出常见缩放级别的快捷方式。
此外,据 Sophie Herold 称,Lopue 正在获得一种新的实验设计,用于将图像拖动到主窗口中,一个用于 RAW 图像格式的加载器,以及裁剪等初始图像编辑功能。当然,我会让你们了解在长达六个月的开发周期中 GNOME 48 的所有主要变化。
在此之前,GNOME 开发人员计划发布对最新 GNOME 47 桌面环境系列的更多更新,下一个是 GNOME 47.2,计划于 2024 年 11 月底或 12 月初发布,因此请确保您的 GNOME 安装始终保持最新状态。
北斗总设计师:北斗天上已达世界一流 但地面精度与国外还有差距
快科技10月27日消息,据报道,近日,在第三届北斗规模应用国际峰会上,北斗三号卫星系统总设计师、中国科学院微小卫星创新研究院副院长林宝军接受了采访。
林宝军表示,9月19日,北斗三号卫星系统最后两颗备份卫星成功发射,北斗三号系统圆满收官,但并不是北斗的终点。
林宝军介绍,自北斗组网开始,定位精度已从公里级提升到现在的厘米级甚至毫米级,随着精度不断提高,北斗赋能各行各业发展。北斗还有无限潜力,催生新的生产力,给人们生活带来无限可能。
不过,林宝军指出,北斗系统天上建好很难,地面用好更关键、也更难。
林宝军说,北斗在规模化应用方面还是有差距的,因为天上目前已经达到世界一流,几乎超越世界上另外几个系统,但是地面还没赶上国外,包括精度。
怎么把精度转换成地面用户能够体验到的技术,让老百姓实实在在感觉到北斗真的是好用?
林宝军强调,天上建好、地面用好,是我们的目标。产学研用联动创新形态还需要进一步形成,技术融合催生新业态。
此外,《北斗产业发展蓝皮书(2024年)》显示,北斗系统服务及相关产品已输出到130余个国家。
中国积极参与国际标准的制定工作,多项与北斗卫星导航系统相关的国际标准相继发布,为民航、搜救卫星、海事、移动通信等多个关键领域产业发展应用奠定坚实基础。
PeaZip 10 发布,改进了 GUI 引擎、压缩预设等
PeaZip 是一款免费的开源跨平台存档管理器软件,今天已更新到版本 10,这是一个主要版本,引入了许多新功能和增强功能。
PeaZip 10 的亮点包括 Linux 系统导航侧边栏的文件系统部分新增了“MTP devices”文件夹,以便更轻松地访问已安装的设备,改进的 GUI,更新了进度屏幕,并支持禁用提示和工具提示,以及更新的 GUI 渲染引擎。
在此版本中,Linux 系统现在支持所有文件浏览器样式和大小,并且 PeaZip 现在显示所有模式和大小的特殊文件夹图标。样式菜单、主题和嵌入图标以及上下文菜单都已作为新重新设计的一部分进行了更新。
PeaZip 的文件存档功能在此版本中也得到了增强,支持在“选项>设置”> Advanced 下将 7z / p7zip 语法级别“设置回 17.05 和 16.02 版本,以提高与旧版 7z / p7zip 版本语法的兼容性。
最重要的是,PeaZip 10 改进了工具栏中的快速“在此处提取”链接,当在文件浏览器中选择一个或多个档案时显示,并更新了压缩预设以支持 tar.gz、tar.xz 和 tar.zst 档案。
在后台,PeaZip 10 使用 Pea 1.20 后端,现在可以在 Google 和 Virustotal 上搜索文件的哈希值以检测已知的恶意软件,新的命令行开关来显示文件的文本预览,并能够直接将校验和/哈希结果保存为 GNU Coreutils 兼容格式。
查看完整的更新日志以了解有关 PeaZip 10 中引入的新功能和增强功能的更多详细信息,您现在可以从官方网站下载这些二进制文件,作为具有 GTK 和 Qt 图形用户界面的 64 位和 ARM64 Linux 系统的即用型二进制文件。
转自 PeaZip 10 Released with Revamped GUI Engine, Compression Presets, and More – 9to5Linux
AMDGPU 更改已准备好用于 Linux 6.13:运行时重新分区,许多修复
在即将到来的 Linux 6.13 内核周期之前,一大批 AMDGPU/AMDKFD 内核图形和计算驱动程序更新已邮寄给 DRM-Next。
AMD 为他们的 Radeon 和 Instinct 更新提交了一堆“新东西”,这些更新是针对 Linux 6.13 内核的。这些变化包括在出现问题时添加 SDMA 队列重置支持、初始运行时重新分区支持(重点关注计算工作负载)、亮度控制更新、更好地处理 IP 块的多个实例,以及与最近和即将推出的硬件支持相关的许多修复/更新。
今天早上的 AMDGPU 拉取请求将这批 Linux 6.13 更改总结为:
amdgpu:
– SDMA 队列重置支持
– SMU 13.0.6 更新
– 添加 debugfs 接口以帮助限制用于测试
的 jpeg 队列调度 – JPEG 4.0.3 更新
– 初始运行时重新分区支持
– GFX9 修复
– 杂项代码清理
– 重新设计 IP 结构以更好地处理 IP
的多个实例 – DML 更新
– DSC 修复
– HDR 修复
– 亮度控制更新
– 运行时 PM 清理
– DMCUB 修复
– DCN 3.5 更新
– 结构体drm_edid清理
– 从_DDC获取 EDID(如果可用
) – 环形 noop 优化
– MES 日志记录修复
– 3DLUT 修复
– DCN 4.x 修复
– SMU 13.x 修复
– set_soft_freq_range()
修复 – ACPI 修复
– SMU 14.x 更新
– PSR-SU 修复
– fdinfo 清理
– DCN 文档更新amdkfd:
– 杂项代码清理
– 增加事件 FIFO 大小
– 复制 SDMAradeon 的波形状态修复:
– 修复 packet3 检查
中可能出现的溢出 – 延迟初始化连接器修复
– 始终设置 GEM 函数指针文档:
– 更新 drm-memory 文档
总体而言,对即将推出的 AMD RDNA4 显卡的支持相当稳定,没有太多的 GFX12 流失等。
补丁的完整列表可以通过此拉取请求找到。
Linus Torvalds谴责硬件厂商漏洞不断 称操作系统开发者没有义务为其善后
Linux 的创造者 Linus Torvalds 对英特尔、AMD & 英伟达(NVIDIA)等公司的硬件漏洞感到”沮丧”,声称制造商是漏洞背后的原因。他表达了行业内习惯于让操作系统开发者去善后的不满,主要是在与外部因素(可能是AMD和英特尔等CPU公司)相关联的时候。
Torvalds最近一直在积极地修复 Linux 内核,因为据报道,内核出现了错误和崩溃。 据他称,这一次他对为了迎合硬件制造商的过失而修改开源内核的做法表示不满。
Torvalds 特别指出了 Intel 首次推出的支持 LAM(线性地址掩码)的最新 CPU,以下是他在 Linux 内核邮件列表公共收件箱中的发言(via kernel.org):
老实说,我已经受够了漏洞百出的硬件和完全理论化的攻击,这些攻击从未实际应用过。 因此,我认为这次我们要反击硬件人员,告诉他们这是他们**该死的问题,如果他们连”是”或”否”都懒得说,那我们就坐以待毙吧。因为该死的,我们应该把责任归咎于硬件,而不是随便拿出一个糟糕硬件”就说”哦,但这**可能是个问题”。
– Linus Torvalds
要通过修改来解决内核中的问题会麻烦,而这很可能与”硬件人员”及其实现有关。 就 LAM 而言,这一特殊功能是通过采用”基于指针的实现”来确保内存完整性的;然而,这种技术却导致了频繁出现的名为 SLAM 的投机攻击,而这显然正是目前困扰 Torvalds 的问题所在。
英特尔公司的一位工程师对 LAM 问题做出了回应,声称该技术本应被禁用,直到找到修复方法为止,但事实并非如此。 他认为,LASS(线性地址空间隔离)最终可以避免 SLAM 攻击,但该团队暂时还没有推出修复方案。
此前,我们曾报道过 Linus Torvalds 如何对 AMD 的 fTPM 表示不满,并呼吁该公司禁用该功能,声称它不应该在运行时使用。 因此,Torvalds 擅长公开指责公司,这也是他以发表有趣言论而闻名的原因。
源自 CentOS Stream 10 的 AlmaLinux OS Kitten 10 现在可供测试
AlmaLinux Kitten 10 今天推出,作为这个基于社区的、源自 RHEL/CentOS 的企业级 Linux 发行版的下一个迭代版本。AlmaLinux Kitten 10 正在跟踪 CentOS Stream 10 的源代码,以最终成为 Red Hat Enterprise Linux 10 的基础。
CentOS Stream 10 已经悄悄推出数月,现在 AlmaLinux Kitten 10 可用于主动跟踪上游 CentOS Stream 10 的更改。AlmaLinux 开发人员已经在 AlmaLinux OS Kitten 10 上工作了一段时间,并准备好让大众开始测试下一个兼容 RHEL 的 Linux 发行版。程序包将继续频繁更新,开发人员计划每三个月重新开发一次 AlmaLinux Kitten 10 ISO。
虽然基于 CentOS Stream 10,但 AlmLinux 正在为其软件包构建重新启用帧指针,现在提供 x86-64-v2 构建来补充上游 RHEL10 正在追求的 x86-64-v3 优化默认值,SPICE 已完全重新启用,以及各种其他硬件支持更改。
如需下载或了解有关明年正式 Red Hat Enterprise Linux 10 版本之前此 AlmaLinux OS Kitten 10 可用性的更多信息,请参阅 AlmaLinux.org 博客,了解有关此令人兴奋的 RHEL/CentOS 衍生发行版的所有详细信息,该发行版一直在保持 RHEL 兼容性,同时也在自行寻求其他改进。
转自 AlmaLinux OS Kitten 10 Now Available For Testing, Derived From CentOS Stream 10 – Phoronix
小米公司成功流片国内首款3nm手机系统级芯片
快科技10月20日消息,据北京卫视消息,北京市经济和信息化局总经济师唐建国表示,小米公司成功流片国内首款3nm手机系统级芯片。
所谓流片,就是像流水线一样通过一系列工艺步骤制造芯片,简单来说就是芯片公司将设计好的方案,交给晶圆制造厂,先生产少量样品,检测一下设计的芯片能不能用,根据测试结果决定是否要优化或大规模生产。
为了测试集成电路设计是否成功,必须进行流片,这也是芯片设计企业一般都在前期需要投入很大成本的重要原因。
此时的小米再次成功流片,距离上次小米澎湃S1发布,相隔了7年多时间。
在2017年,小米澎湃S1正式亮相,这颗芯片首次搭载在小米5C手机中,据了解,澎湃S1为8核64位处理器,采用28纳米工艺制程,最高主频达2.2GHz,采用大小核设计,搭载Mali T860四核图形处理器。
在澎湃S1之后,小米陆续打造了澎湃C1、澎湃G1、澎湃T1等多款芯片。
对于造芯,雷军曾表示,我知道,这条路很漫长,我们心怀敬畏,这条路也充满了险阻,但小米从来最不缺的就是耐性和毅力。我们向着更高、更险峻的技术高峰持续地攀登,为用户提供更出色的体验,我们探索的脚步不断,澎湃的涛声永不停息。