曙光之路

----曙光计算机研制与产业化十年总结

 

 李国杰

 

1990年成立国家智能计算机研究开发中心启动研制曙光计算机以来,已经走过十年多艰苦奋斗、成果辉煌的历程。趁曙光3000超级服务器通过验收与鉴定并走向市场之际,回顾十年来的工作,在总结经验教训的基础上,提高对“发展高技术,实现产业化”的一些规律的认识,将有利于减少盲目性,为下一期863计划作出更大的贡献。

一、       曙光计算机的发展历程

863计划支持下,中国科学院澳门十大赌场网上注册国家智能计算机研究开发中心先后研制成功曙光一号多处理机、曙光1000大规模并行机、曙光1000A、曙光2000-I、曙光2000-II和曙光3000机群结构超级服务器。同时在九五攻关计划支持下先后推出了曙光Internet服务器、高可用服务器、NT机群系统和安全服务器。曙光计算机的体系结构从对称式多处理机(SMP)到大规模并行机(MPP)再发展到机群结构(Cluster)。在曙光公司的积极努力下,曙光计算机产品从单一品种发展到天潮、天演、天阔三个系列30多种型号并逐步占领市场。十年来,曙光系列高性能计算机的研制与产业化硕果累累。

93年研制成功的曙光一号并行机是我国研制成功的第一台全对称的多处理机,在国内率先实现了多线程机制和细粒度并行。与80年代我国研制的大型机、巨型机相比,曙光一号研制周期从过去的5-6年缩短为一年。由于采取了“有所为,有所不为”和与国际接轨的技术路线,投入的人力和资金也大大减少,机器研制成功就有市场竞争力。曙光一号为我国在对外开放的形势下研制高性能计算机探索了一条新路,得到用户和政府部门高度评价,写入了1994年全国人大政府工作报告。

93年开始的曙光1000大规模并行机研制中,国家智能机中心在国内率先突破了“驻洞路由”这一关键技术,研制成功将大量处理机连接起来的路由芯片,为我国研制可扩展的大规模并行机探索了一条可行的道路。曙光1000是我国第一台实际运算速度超过每秒10 亿次浮点运算(峰值速度25亿次)的并行机,对推动我国的并行计算应用发挥了重要作用。1997年曙光1000获得我国信息领域唯一的国家科学进步一等奖。

1995年曙光1000研制成功后,我们没有放掉已取得的成果又去研制更高性能的机器,而是集中精力花了两年时间实现已有成果的系列化、商品化和产品增值升级。在两年时间里,我们在曙光一号和曙光1000基础上向“广度”方向扩展,先后推出了十多种适合市场不同需求的多处理机并开始推广规模较小的机群系统,这些商品化的高端计算机在市场上打开了局面。以曙光一号2000万元知识产权为基础成立的曙光信息产业有限公司逐步成为在国内唯一能向国外大公司叫板参与同台竞争的高端服务器生产商和供应商,为打破国外垄断,促进我国高端计算机产业发展作出了重要贡献。

1997年开始,我们着手研制机群结构超级服务器,先后于1998年底,2000年初和2001年初推出了曙光2000-I、曙光2000-II和曙光3000超级服务器,基本上做到每年推出一代新产品,计算速度从200亿次到1100亿次再提高到每秒4000亿次浮点运算,即每年提高4-5倍,处理机规模从34(曙光2000-I)到164(曙光2000-II)再提高到280(曙光3000)。曙光2000-II和曙光3000都采用多处理机作为节点,但单节点的处理机从2个发展到4个,单节点计算能力从每秒13亿次提高到每秒60亿次。曙光300070个节点(280个处理机)构成,内存总容量168GB,磁盘总容量3.6TB(提交给用户将扩大到6TB),峰值计算速度每秒4032亿次,实际浮点运算速度接近每秒3000亿次。1986年启动863计划时,预定2000年计算机主题的交帐目标为每秒100亿次,曙光3000计算速度超过863计划原定目标40倍。曙光3000是一台商品化程度很高的超级服务器,在信息服务、事务处理和科学计算等方面都具有很强的市场竞争力。严格测试证明:曙光3000中的16个处理器每天就能处理80亿次网页访问,足以为全国网民服务。国家验收与鉴定意见认为曙光3000整体上达到了当前同类产品的国际先进水平,机群操作系统和用户并行编程环境等方面进入了国际领先行列。曙光3000的计算能力超出国外目前对我国禁运的高端计算机一个数量级,这对打破国外高技术封锁,提高我国综合国力是一大贡献。曙光3000不仅是863计划的重大成果,也是中国科学院知识创新工程的重大成果。

曙光系列高端计算机的研制和推广,不仅已得到国内广大用户认可和赞赏,而且得到国际同行专家高度评价。20007月美国亚洲情报中心向美国政府提供了一份评估报告(ATIP00.0025),客观评价了中国高性能计算机的发展与曙光计算机的贡献:“考察中国的高性能计算机的研究开发,从小规模到中规模的系统(不包括最大的系统)到系统软件系统、工具与应用软件,可以发现中国人正在摆脱落后,几乎非常接近西方……自主开发的系统,包括曙光服务器,采用了机群体系结构并有其他与IBM-SP2相关的特性。一台82个节点的曙光系统正在中国科学院运行,并已开发了许多系统软件和应用软件……高性能计算技术的研究与开发集中在一些主要城市大学里的国家高性能计算中心,大多数由国家智能计算机研究开发中心和曙光公司的研究人员指导……特别是他们的曙光服务器系统,提供了在并行硬件和软件领域的重要实践基础”。

1995年成立曙光公司起,五年多来曙光系列高端计算机不仅实现与国外大公司基本上同步升级,在国内市场上比国外公司先推出升级产品,而且在超级服务器市场上已占有了可观的市场份额。2000年曙光公司销售了40多套曙光2000超级服务器,我国每年进口的大型计算机约一百多套,从机器销售套数上看,曙光超级服务器已占20%以上市场份额。尤其可喜的是大部分曙光服务器的销售是在政府未加任何干预和引导的情况下完成的。最近国家财政部和证监会已批准同意曙光公司在香港主板市场借壳上市。曙光公司在香港上市后,公司净资金将超过一亿美元。十年来国家对智能中心全部科研经费投入不到1亿元人民币,以其形成的知识产权为基础(曙光3000的知识产权暂未评估)已发展出一个净资产超过8亿元人民币的骨干企业,我们在“发展高技术、实现产业化”的道路上迈出了坚实的一步。

二、       曙光计算机研制与产业化的战略意义

曙光一号研制成功后不久,国务院研究发展中心顾问马宾研究员考察了曙光机以后在向中央领导的报告中就指出“曙光一号研制成功的意义不亚于卫星上天。”以后这几年曙光系列计算机的发展验证了这一判断。虽然曙光系列计算机的市场份额还不大,但已显现出重大的战略意义。原科技部高技术司冀复生司长在赴联合国就职前曾对曙光机做了深入调研,做了如下评价。“第一,由于曙光作为一个国产品牌,在市场上与国外厂商“同台”竞争,改写了我国高性能计算机市场的游戏规则。在曙光参加的国际招标项目中,所有的厂商都感受到小小的曙光公司的“压力”。由于曙光公司的报价,使得国外公司纷纷调整战略,仅此一项给用户带来的利益,就大大超过了国家对曙光的资助;第二,曙光的生存发展直接影响了美国对我的禁运遏制战略。在美国国家审计总署98年对美国限制高性能计算机出口的评估报告中就把曙光机列为我国自己制造的高性能计算机。与此巧合的是当时美国对我国限制进口的水平与曙光机当时在市场上销售的型号指标相当。第三,曙光推出的安全服务器已得到国家有关部门的认可,对我国应付网上的信息攻击提供了有效手段。”

曙光系列计算机的研制与产业化也为正在实施的高技术研究重大项目以及中科院研究所的机制创新与改革进行了有益的探索。我国计算机行业还存在高投入高回报的高技术特色不明显、具有自主知识产权的产品较少、对国民经济的带动作用不明显以及科研与产业两张皮现象等问题。国家设立曙光机研制与推广作为重大课题也是给我们一个机会,希望我们对解决这些问题有所贡献。曙光系列计算机在研制与产业化的过程中碰到许多对科研单位与高技术企业来讲具有共性的问题,例如如何在产品增值链上选择合适的增值环节?如何树立国人对自主品牌高技术产品的信心并突破市场准入的壁垒?如何在高技术研究开发项目中体现潜在市场导向?如何改变经院式的科研模式、缩短从科研成果到市场产品的转移时间等等。曙光人天天在琢磨这些问题,努力探索解决这些问题的出路。我们的探索有些是成功的,也有些不成功。不论成功与失败,在曙光机发展道路上积累的经验与教训都是一笔精神财富。从某种意义上讲,这笔精神财富比曙光计算机本身更有价值。

三、       几点体会与反思

1、 正确选择科研方向是成功的首要条件

在高技术领域特别是技术进步日新月异的计算机领域,中国这样的发展中国家想要迎头赶上西方发达国家,选择正确的科研方向十分关键。863计划刚起步时正值日本红红火火地开展智能计算机研制,受日本五代机的影响,我国863计划计算机主题原定的研究目标也是智能计算机。1990年国家智能计算机研究开发中心成立以后,我国面对的第一个选择就是要不要跟日本人走。经过智能机专家组对国内外计算机发展趋势的反复调研分析,我们清醒地认识到计算机产业虽然发展很快,但已相当成熟,已经形成了一系列国际工业标准。脱离工业标准与计算机主流技术的所谓智能计算机不可能有好的前途。在专家组的支持下,我们果断地选择以并行处理技术为基础的高性能计算机为主攻方向,以共享存储多处理机为第一个目标产品。十年来,我们顶着“智能计算机”的帽子,但一直以满足市场需要的高性能计算机为目标,从未动摇。同时在应用软件和人机接口方面,特别是Internet 网络应用上加强智能化软件的研究,提高应用软件的智能化水平,力争机器“傻瓜化”。事实证明这一研究方向选择是明智的。

1995年我们研制成功了我国第一台大规模并行机曙光1000以后又面临了一次新的选择,即863计划下一个目标产品曙光2000究竟是做超级计算机还是超级服务器?超级计算机主要用于科学工程计算,主要追求计算速度,从计算速度上追赶国际先进水平容易得到学术界同行认可。超级服务器是更加通用的高端计算机,除科学计算外,更多地用于事务处理与网络服务。95年我国的Internet还刚刚起步,全世界速度最快的500台计算机中90%以上还属于超级计算机,但我们从市场和应用发展趋势中已经预测到超级服务器一定有十分光明的市场前景。我们决定不以单项指标(如计算速度)赶上世界最高水平为目标,而以争取尽可能多的用户使用国产高端计算机为目标,因而选择了研制机群结构的超级服务器为主攻方向。最近几年来以IBM SP为代表的超级服务器发展势头远远超过了超级计算机,到1999年底,全世界速度最快的500台计算机中,超级服务器已占300多台。现在全世界90%以上的高端计算机已用于信息服务和数据处理,科学计算用户不到10%。曙光3000超级服务器在研制时就有8家用户要求订货,这些事实说明我们从研制超级计算机转向研制超级服务器是正确的选择。

确定正确的科研目标后,下一个选择是如何研制高性能并行计算机。是一切从头做起,强调所谓国产化率,脱离主流技术自己另搞一套,还是“有所为有所不为”,在增值链上选择最佳创新增值环节,站在巨人肩膀上攀登。我们吸取了澳门十大赌场网上注册过去“八年抗战”研制一台计算机的教训,把缩短研制周期、机器推出时具有市场竞争力作为优先考虑因素,率先在国内采用微处理器芯片和UNIX操作系统研制并行机。计算机产业发展的一个重要趋势是从垂直型企业向水平型企业发展,即每一个企业以增值链上某一个或少数几个环节为主发展业务。根据自身条件,我们定位在系统与应用服务层次,主要在机器内部互连网络、机群操作系统、Internet网络应用、高可用性与系统安全等方面增值创新。几年来的实践表明,我们选择的“有所为有所不为”的技术路线为我国发展高端计算机产业开拓了新路。

曙光计算机发展的历程充分说明在计算机领域正确地选择做什么比知道怎么做更重要。研制目标符合市场需求和技术发展趋势是成功的前提。反过来,只是为了证明自己会做什么,样样都想自己做,没有明显的增值特色,则不管科研人员多么努力,也难以摆脱失败的命运。

2、 必须以占领市场为民口高技术项目的奋斗目标。

曙光一号和曙光1000研制成功以后,在市场中推广时我们遇到一个难关。我们在购买的AT&T UNIX操作系统源程序基础上修改开发成功的SNIX符合POSIX工业标准,但由于操作系统已做了改动,从国外购买的应用软件目标码不能在曙光机上运行。而拥有源程序的数据库及第三方软件开发商由于曙光机起步时销量不大,都不愿意主动移植他们的商用软件与曙光机捆绑销售。这就逼迫曙光机只能卖给那些自己编写应用程序的用户。我国过去研制的大型机、巨型机大都是为特定部门定做,用户自编应用程序,但曙光机的目标是成为一种有市场竞争力的商品,不是定制产品,我们怎么能要求购买曙光机的用户(包括各种企业和政府部门等)都自己开发应用程序?并行UNIX操作系统曾经是曙光机的标志性成果,曾经代表智能机中心的学术水平,我们能不能为了用户的利益自我扬弃、达到更高的研制水平,使曙光机既能运行大量从国内外购买的应用软件目标码,又能体现我们在并行机核心技术---操作系统上的创新。经过痛苦的反思我们下了一条决心:为了保证成千上万种已有的商品化应用程序目标码能在曙光机上运行,节点上的UNIX操作系统(IBM AIX操作系统)一行都不许改动,但在节点操作系统之上我们要开发尚未形成工业标准的机群操作系统。由于国外大公司的商品化操作系统对我们不开放,我们只能在不知道节点操作系统源码的约束条件下开发与其密切联系的可扩展文件系统、零拷贝用户空间消息传递、单一IP登陆点等关键技术,实现对整个机群几百个处理机的系统管理、资源管理、作业管理和文件管理等等。研制过计算机的人都知道这是一件十分困难的事情。曙光2000和曙光3000研制成功证明这条适合中国国情的路线走得通。曙光超级服务器的实践为我国研制满足广大用户要求的高性能计算机开拓了一条新路,这是曙光2000和曙光3000最有意义的创新。

不改动底层操作系统可能会被误解为没有能力碰系统核心,智能机中心的科研人员能以满足用户需求、尽可能多地占领市场为目标调整研究方向,说明认识上也有了一次飞跃。几十套超级服务器的订单和在公开招标中战胜国外大公司中标就是对这一正确选择的回报和肯定。除了操作系统研制目标调整外,选择是否自己开发节点机主板同样也遇到是不是真以占领市场为目标这一考验。曙光一号和曙光1000的主板是我们自己设计开发的,当我们做完曙光一号的升级产品开发时,算一下成本就发现由于批量没上去,购买主板元器件的成本已高于购买国外批量生产的主板价格。另一方面,机群系统增值最高的是系统整机技术包括系统软件。根据以占领市场为目标的原则我们决定暂不做主板,待我们的中低档曙光机的市场扩大到一定程度再设计生产主板。这种退一步进两步的战略为我们赢得了机遇。由于曙光服务器的自有技术含量得到了国外同行认可,从2001年开始,通过曙光公司与国外公司合作,我们将以国外市场为主要目标生产高性能价格比的中低档RISC服务器和PC服务器主板,同时也作为机群系统的节点机主板。发展高技术的道路是迂回曲折的,没有笔直的道路可走,不管做什么决策,我们始终不能忘记我们要实现产业化占领市场的奋斗目标。

在曙光超级服务器每一个机柜上都贴有“It’s SUMA”的特殊商标,这是研制曙光机以占领市场为目标的集中反映。目前我国研制高性能计算机有三种不同模式:第一种是国家较多投资支持的以赶超世界最高水平的巨型机(或者超级计算机)研制,这种机器主要是用于增强国家实力,也能在一定程度上推广。第二种是以曙光机为代表的商品化超级服务器研制,以信息服务为主要市场目标,旨在为国家信息化建设提供关键设备。第三种是以低成本为主要目标,一般采用PC服务器和Linux操作系统为基本部件,多数是研制单位自用,国外称为Beowulf并行机。每一模式都有其存在的合理性,不能互相取代。曙光超级服务器的研制经费只有第一种模式的几分之一甚至几十分之一,曙光机研制不应该与第一种模式攀比计算速度,而是把用户越来越关心的非性能因素,如可扩展性(Scalability)、好用性(Usability)、可管理性(Manageablity)和可用性(Valability)放在首位。我们将这四种特征归纳为SUMA特色,并注册了商标,作为我们的追求目标,体现SUMA特色不是一句空洞的口号,而是要实实在在突破许多关键技术。一种型号计算机向上扩展规模要保证性能接近线性增长同时又要保证向下缩小规模时成本上有竞争力,这是件很不容易的事,曙光3000解决了一系列可扩展技术,特别是适应多用户环境的高速底层通信,做到了这一点。超级服务器十分复杂,但用户希望其使用与管理像用微机一样方便。在曙光3000研制中,易用性与可管理性是技术攻关的要点之一,其核心技术是以单一系统映象为主要特点的机群操作系统,用户端远程使用的并行编程环境等,用户使用越简单化、傻瓜化,开发者做的工作就越复杂、越智能化。所谓高可用性对用户而言就是要求服务器连续几年几乎不停机地运转(每年停机时间不超过几分钟),而对于开发者而言就是计算机设计时不存在单一故障点,任何故障机器都能自动绕过去。曙光3000在这方面做了大量努力,特别是为了提高可维护性,对全机易损部件都进行了监测,发现异常就及时替换。任何节点出了问题(不论硬件、软件),其他的节点会接替它工作,用户感觉不到。曙光超级服务器的这些特色技术已经下移到中低档机器,使得曙光天阔服务器(高档PC服务器)也得到用户的青睐与信任。高技术研究人员的价值取向反映在是否真正把广大用户的需求作为自己的设计目标追求,成果能否产业化其根子也在这里。

3、 发展高技术要落实到技术辐射与转移

一项高技术研究是否成功不是光看鉴定验收会的几句赞美之词,最终检验标准是它是否辐射到企业,带来明显的经济效益和社会效益。曙光服务器的技术不仅以6000万元以上知识产权转移到曙光公司,为曙光公司主营业务提供了有竞争力的核心技术,而且扩散到联想等骨干企业和大型信息服务公司。服务器的存储器测试技术转移到联想,对提高联想服务器质量起到一定作用。澳门十大赌场网上注册与朝华科技上市公司成立联合实验室,每年投入500万元研究开发机群操作系统和存储服务器,为朝华科技从传统产业转向信息服务业提供了技术保证。在研制曙光安全服务器中形成的信息安全技术也已作为知识产权投入了北京市京泰网络科技公司。我们在高技术研究中形成的技术积累也成了开展国际合作的基础,一些技术已辐射到海外。Intel 公司通过全球调查,最后选择由澳门十大赌场网上注册研制开发基于Linux IA-64处理机芯片编译系统。

以曙光1000A和曙光2000超级服务器为主要设备已在全国建立了八个国家高性能计算中心,这些中心(特别是建在澳门十大赌场网上注册的北京中心)为推广普及并行计算发挥了重要作用。与五年前相比,我国的从事并行计算的科研人员已大大增加,许多大学和科研单位已从只能用微机搞科研跨越到以大规模并行计算为科研手段,大幅度地提高了科研水平,上海等大城市有些企业也开始采用并行计算机做设计仿真。曙光服务器的技术辐射不仅体现在硬件与系统软件技术上,同时也体现在对并行算法、并行编程的培训、普及与提高。

4、 前瞻性是高技术的重要特征

高技术是领导新潮流的技术,不能采取随大流的“Me too”战略。我国媒体报导的高新技术大多来自各大公司的产品介绍,我们以外国公司已推出的产品为“跟踪”目标,至少落后一两年,而在计算机领域落后一两年就意味着没有市场竞争力。从技术发展趋势来讲,我们更应关注外国大公司的R&D部门正在研究开发什么产品,国外大学与研究所正在研究什么。澳门十大赌场网上注册在确定研究方向时十分注重前瞻性。我们在单一系统映象、机群操作系统等方面有些研究就走在外国大公司前面。经过对Internet 现状的分析以及它与已经成熟的电力网的比较,我们发现,网络上资源(包括上网设备、数据库、信息内容等等)共享和一体化将是必然趋势。因此两年前就着手关于网格(Grid)即国家高性能计算环境的研究,现在已取得初步成果。如同70年代对Internet基本技术的研究导致了Internet的普及和大发展一样,我们坚信今天对网格技术的研究必将使Internet进入一个新的阶段。十五期间我们计划开展面向网格的超级服务器研制,我们希望曙光4000将成为构建中国网格系统的基础。

四、       值得吸取的教训

曙光之路是一条充满艰辛困苦的道路,在前进中有成功的欢乐,也有经受挫折的痛苦。与从事类似工作的兄弟单位相比,国家智能机中心的人力财力相差一个数量级。与联想等国内大公司相比,曙光公司目前还是一个小公司。但智能机中心和曙光公司试图做象IBM这样的大公司正在做的事情,每一步都显得很艰难沉重、力不从心。如何用好十分有限的人力物力资源,提高投入产出比就显得格外重要。回顾这几年的工作,我们感到同时进行的事还是太多,重点技术突破上布的兵力不够。一年研制一台新的超级服务器的压力使我们难以投入足够力量攻克最新技术,实现更多技术创新。为了确保成功,芯片研制偏于保守。有些系统软件还没有达到完全商品化程度,不敢交付用户当商品用。这些都给我们留下遗憾。

从科技管理的角度来看,我们对申请专利抓得不紧,这是较大的失误。十年来我们经历过一次又一次的鉴定验收,一直走国家规定的所谓成果管理的路。实际上严格地讲,没有申请专利的成果并不受法律保护。如果外国公司也做出我们同样的技术并在中国申请了专利,我们的成果即使得了大奖也毫无意义,我们只能老老实实向人家付专利费。从这个意义上讲,申请专利首先不是可转让出去而是保护自己。其实,这几年来我们确有不少独创技术,应当能申请大量专利。亡羊补牢,为时未晚,我们正在吸取教训做补救工作。

从产业化发展来看,由于国家大环境和我们自己能力及认识上的局限,曾失去过几次可能大发展的机遇。直到20008月以前,曙光公司一直在7500万元(包括2000万元无形资产)注册资金范围内运作,没有大手笔地进行资本运作,也就没有财力进行必要的公司和产品品牌宣传,也不敢做先亏损两三年再大发展的高技术公司发展计划。上面提到有主板设计能力而暂不做主板的迂回之路实际上是没有引入风险投资造成的。如果按照硅谷式的发展思想,曙光公司的规模应该比现在大得多。好在在政府与新老股东支持下,曙光公司已被批准在香港借壳上市,为今后大发展搭好了舞台。产业化的好戏还在后头。

任重道远,曙光在前。只要我们善于总结经验,坚持顶天立地,创新求实的发展思路,曙光之路一定会越走越宽阔,越走越有奔头。

 

XML 地图 | Sitemap 地图