芯片产业因其战略重要性,一直在被重点关照。然而受制于近年来西方国家的一系列措施,我国芯片产业遭遇各方面压制,授权禁令、供应中断等情况屡见不鲜,形成了俗称的“卡脖子”现象。面对愈发严峻的环境挑战,国内芯片企业始终无法突破关键核心技术的封锁,不得不在已有的规则体系下谋求生存,然而这样的策略仅仅是权宜之计。
芯片作为电子硬件的关键组件,其生产与设计涉及极高的技术难度。除了光刻机制造,芯片设计更是影响到产业发展的关键。要真正突破现有制约,自主芯片架构是重中之重。现在桌面计算机以x86指令集架构为主,移动端以arm为主。当前,国内企业的芯片架构发展多依赖于国外授权,这使得我国芯片产业在遭遇断供等问题时几乎无法进行有效应对。因此,真正实现国产自主芯片,就必须突破底层指令系统的限制。
好消息目前国内龙芯中科在芯片架构方面已取得了零的突破,在2020年成功推出了全自主指令集龙架构(loongarch),标志着国内芯片正式拥有了自己的指令集架构体系。
1 龙芯3a6000介绍
在2020年发布了loongarch自主指令集架构后,龙芯中科也基于loongarch架构的处理器3a 5000系列处理器成功流片,而经过了三年左右的发展,龙芯3a6000在今年也正式流片发布。
龙芯3a6000处理器依旧采用loongarch自主指令集架构,与3a5000处理器使用了相同的12nm工艺,但通过架构优化设计,定点和浮点分数大幅提升。龙芯3a6000处理器内核从龙芯3a5000的la464升级到了la664,名字664代表6发射64位,每个龙芯3a6000处理器有4个la664核心,支持128位向量处理扩展指令(lsx)和256位高级向量处理扩展指令(lasx)。
上一代龙芯3a5000处理器拥有4核心,而龙芯3a6000处理器首次支持同步多线程技术(smt2),原理就是大家熟知的超线程,从而让龙芯3a6000处理器核心线程达到了4核心8线程。频率的话龙芯3a6000处理器跟上代3a5000一样,依旧是2.5ghz的主频。三级缓存为16mb,内部集成了双通道ddr4-3200内存控制器。
这次我们也拿到了搭载龙芯3a6000的台式机,这次龙芯3a6000依旧是焊接封装在主板上,主机内部提供了双8gb 3200mhz内存,256gb的固态硬盘以及rx 580显卡,搭载的系统为统信uos。目前的统信uos和loongarch架构已经适配了绝大部分办公软件,相较于龙芯3a5000时期只有零散软件生态现在真是壮大了不少,作为一台日用办公主机,在软件上的支持足够满足大部分用户的需求了。
此前根据中国电子技术标准化研究院赛西实验室在龙芯3a6000流片时进行过测试,根据测试结果显示龙芯3a6000处理器总体性能与intel公司2020年上市的第10代酷睿四核处理器相当。所以这次测试时我们会用英特尔酷睿i3-10105来进行一下对比,同时加入amd 锐龙3 3100这款三代锐龙处理器的成绩,三款处理器的基本参数如下。
单说参数,龙芯3a6000处理器除了在频率上具有劣势外,其余的参数确实已经追上了这些三年前的英特尔和amd入门级处理器,至于性能差异有多少,是否真能与英特尔酷睿i3-10105这款10代4核8线程处理器性能相当,下面我们就来看一下实测成绩,我们这次主要通过基准测试和实际体验方面来进行对比,测试平台均采用相同版本的统信uos系统,除了主板和cpu外其余硬件配置一模一样。
2 基准测试
unixbench测试:
首先来看一下在基准测试中,我们会使用三款测试软件:spec cpu 2006、 stream、unixbench来进行测试。首先使用unixbench来进行测试。这款软件是一个类 unix(unix,bsd,linux)系统下的性能测试工具,被广泛用于测试 linux 系统主机的性能。可以测试系统调用、读写、进程、图形化测试等成绩,也是一个全方面考验整机的软件。
unixbench的测试结果显示龙芯3a6000处理器多线程成绩为8032.1,单线程成绩为2021.3。英特尔酷睿i3-10105单核心分数2423.1,多核心分数为2423.1。 amd 锐龙3 3100单核心分数2938.2,多核心分数10169。从测试结果可以看到,龙芯3a6000处理器在unixbench的多核心性能上比英特尔酷睿i3-10105表现更出色,单核则还有一定的差距。
spec cpu 2006:
接下来我们进行spec 2006对比测试,spec 2006是一个大型的cpu性能测试项目,重点测试系统的处理器,内存子系统和编译器。能够测试cpu最基础的定点性能int和浮点性能fp。
根据测试结果显示,龙芯3a6000处理器在spec2006中单线程定点性能int成绩为43,单线程浮点性能fp成绩为54.7,英特尔酷睿i3-10105单线程定点性能int成绩为39,单线程浮点性能fp成绩为46.7。amd 锐龙3 3100单核心分数41.1,单线程浮点性能fp成绩为57.3。在这项测试中,龙芯3a6000处理器不管是定点性能int还是浮点性能fp都要强于英特尔酷睿i3-10105,而单线程定点性能int甚至也能超越amd 锐龙3 3100一点。
多线程测试中,龙芯3a6000处理器在spec2006中多线程定点性能int成绩为139,多线程浮点性能fp成绩为153,英特尔酷睿i3-10105多线程定点性能int成绩为95.8,多线程浮点性能fp成绩为101。 锐龙3 3100多线程分数133,多线程浮点性能fp成绩为154。龙芯3a6000在多线程测试中定点性能int超过了英特尔酷睿i3-10105和amd锐龙3 3100,浮点性能fp与amd 锐龙3 3100之只差1。
stream:
stream是业界主流的内存带宽测试程序,测试行为相对简单可控。 该程序对cpu的计算能力要求很小,对cpu内存带宽压力很大。 随着处理器核心数量的增大,而内存带宽并没有随之成线性增长,因此内存带宽对提升多核心的处理能力就越发重要。
我们分别测试了单线程、4线程以及8线程的在stream成绩,其中龙芯3a6000在这款软件中成绩表现都很突出,成绩均超过了两款英特尔和amd处理器。特别是单线程成绩,除了scale模式外,成绩分数都是表现最好的,说明这代龙芯3a6000在单线程优化方面做得更出色一些。而在前两项测试中表现突出的amd 锐龙3 3100,在stream测试中遇到了瓶颈,这也比较符合当时锐龙处理器的表现,在内存方面一直要差一些。
基准测试性能上,龙芯3a6000对比英特尔酷睿i3-10105整体来说确实更有优势,甚至spec 2006和stream这种测试软件也要比amd 锐龙3 3100更有优势,这些软件在统信uos系统能让国产处理器性能发挥更出色,这也是生态系统的重要性,生态建立到位才能让处理器发挥出更强的性能。
3 应用测试
除了上面三款基准测试软件,我们也下面实测一下龙芯3a6000在常用办公软件上的性能表现。
wps文档:
然后我们首先使用wps分别打开50mb和200mb文档, 并记录文档打开的是时间,为了保证测试数据更加精准,我们每个文档会打开3次平均值。
通过实际测试可以看到,龙芯3a6000在打开50mb文档的时候用时最短,只用了0.8s,而200mb的文档用时最长,需要2.12s,但也十分接近英特尔酷睿i3-10105,整体来看在处理小容量文档时龙芯3a6000具有更大的优势。
wps ppt:
下面我们在用ppt来测试一下,分别打开50mb的ppt,一个ppt包含图片 视频,一个包含文字 图片,同样每个ppt会打开3次平均值。
龙芯3a6000在打开50mb文字 图片的ppt用时1.68s,打开图片 视频的50mb ppt用时1.8s。amd 锐龙3 3100打开50mb文字 图片的ppt用时1.54s,打开图片 视频的50mb ppt用时1.56s。英特尔酷睿i3-10105打开50mb文字 图片的ppt用时1.14s,打开图片 视频的50mb ppt用时1.32s。ppt打开测试中龙芯3a6000是三款处理器里耗时最多的。
wps excel:
接下来测试一下excel表格的打开速度,分别打开50mb纯文字表格和50mb文字 图片的表格,每个表格会打开3次平均值。
wps excel打开测试中,龙芯3a6000打开50mb纯文字的表格用时2.61s,打开50mb的文字 图片表格用时3.15s,amd 锐龙3 3100打开50mb纯文字的表格用时2.01s,打开50mb的文字 图片表格用时2.35s。英特尔酷睿i3-10105打开50mb纯文字的表格用时2.74s,打开50mb的文字 图片表格用时3.21s。这项测试中龙芯3a6000虽然打开速度不如amd 锐龙3 3100,但耗时要比英特尔酷睿i3-10105更短。
影音打开:
最后我们再来测试一下影音播放的打开速度,我们选择统信uos操作系统下的默认视频播放器,并打开同样大小的4k和1080p mp4格式的视频,分别记录三个平台的打开时间,同时每个视频会打开3次平均值。
根据测试结果显示,龙芯3a6000处理器打开4k视频用时1.23s,打开1080视频用时1.19s。amd 锐龙3 3100打开4k视频用时1.42s,打开1080视频用时1.27s。英特尔酷睿i3-10105打开4k视频用时1.67s,打开1080视频用时1.37s。在这三款处理器中龙芯3a6000处理器耗时最短。
4 游戏体验
这次令人惊喜的是,龙芯3a6000可以玩游戏了,比如《死亡细胞》、《火炬之光》以及老版本的《古墓丽影》,甚至龙芯还给《魔兽世界怀旧服》做了适配,但可惜暴雪已经推出大陆市场,所以没法进行体验。
游戏方面,在适配的几个游戏中,龙芯3a6000已经能够做到相对流畅的进行游玩,比如《死亡细胞》,全程体验都很顺滑,也没有遇到闪退、死机等不良反映。
《火炬之光》时感觉帧数预计在40帧左右,相较于《死亡细胞》帧数会低一些,但也能流畅运行,不过测试时候也发现《火炬之光》的8个核心是没有吃满的,利用率不高,在多线程方面,还需要进一步的优化,不过已经能玩了,相信这一天也不会太远。
5 新的突破 新的挑战
龙芯3a6000的发布无疑是一个里程碑,通过loongarch自主指令集架构和smt同步多线程以及多方面优化,这款处理器已经取得了一系列突破,实测结果也能证明,不管是基准测试还是办公体验,龙芯3a6000在统信uos系统上的发挥已经媲美甚至部分超越了英特尔酷睿i3-10105,将国产自研芯片性能提升到了一个高度,重要的是这是在自主可控的完全国产指令集架构上完成的成就。当然龙芯3a6000目前仍有一些问题存在,比如测试时发现多线程仍需优化,核心利用率不高,以及在软件兼容体验上相仍有很大的进步空间,这些都是未来需要努力的方向。
目前loongarch和国产系统的市场接受度也需要时间和资源去推动。在全球产业链日趋复杂的今天,一个完整的半导体生态系统并不是依靠单一企业或单一产品就能建立起来的。它需要供应链的完善、软件生态的丰富,以及应用场景的拓展。这必然是一个长期、艰苦的过程。不可能一蹴而就,它需要稳定的资金投入、持续的人才储备、先进的研发。
再者,技术快速发展的背景下,竞争同样在加速。全球芯片巨头不断推陈出新,采用更先进的生产工艺和设计方法,如7nm、5nm甚至更先进。为了不被迅速落后,国内厂商必须加速研发步伐,投入更多资源,并且在全球范围内拓展技术合作和人才引进。
半导体产业是一个高度集成复杂领域,每一个小进步都可能带来巨大的突破。我们有理由相信,随着国内外各方面的共同努力,国产芯片将不仅仅是一种“替代品”,而是在全球范围内具有竞争力和影响力的“主角”。但这一切都需要时间、资金和耐心。loongarch自主指令集架构已经为完全可控自主的国产芯片搭好桥梁,龙芯3a6000在国产芯片商业化上迈出新一步,而等待国产芯片产业的全面崛起,必将是一个漫长且值得期待的过程。
评论