根据本文的定义,信息网格是一种结构,它允许终端用户和应用程序分享信息,而不管信息保存在何处。本文展示了系统架构师们在设置网格计算环境时,如何考虑信息基础设施。
简介
本文是为网格计算设计信息基础设施系列的第一篇文章。本系列的后续文章将描述信息网格的蓝图和层次,也会介绍信息网格的使用场景。
网格计算和资源
网格计算环境的信息基础设施是网格计算模型的核心组件。信息基础设施允许终端用户以及应用程序共享信息,而不必关心其存储的位置,还可以为异质文件、数据库以及存储系统,提供安全访问机制。它也支持处理与大规模协作过程中的数据共享。因此,系统架构师在设置网格计算环境时,必须保证信息基础设施是经过仔细设计的。
从本质上看,网格用户看到的是一个单一的大规模虚拟计算机,如图 1 所示。在网格计算的核心,是一组开放的标准和协议(比如 Open Grid Services Architecture ,OGSA),因此可以跨异质和地理上分散的环境实现通信。
资源共享并不局限于硬件。还包括其他资源,比如软件、数据文件、服务、许可证等等。这里的资源是虚拟化的,这样可以在异质的网格参与者之间为这些资源提供更加统一的互操作性。虚拟化的资源还可以组织成虚拟机构,其中每一个机构都可以在一个更大的网格中共同分享这些资源。这个网格的参与者和用户可以是若干真实机构或虚拟机构的成员。
对共享信息的需求已经改变了网格计算所面临的问题。虽然最初对网格实现的关注使应用程序的处理速度得到了提高,但现在另一个挑战出现了,即,如何在网格中分发和共享。网格计算的挑战包括:保证数据能很容易地访问到,以及将数据传送到分布式环境中的计算点时不会引发网络瓶颈和数据访问的问题。
为什么信息基础设施是相对的
几乎所有的业务过程都依赖于对共享数据和信息的可靠快速访问。在计算环境中,必须对数据实施发现、存储、管理、集成、分发、发布、查询、传送、保护、恢复等操作。
数据的形式和大小各有不同,可以存在于机构中的很多地方,从数据库系统到桌面 PC 的电子表格和文本文档等等。也可以电子邮件、可扩展标记语言(XML)文件以及面向对象应用程序代码中的中转数据报等形式存在。
如图 2 所示,这些数据所在的机器具有不同的配置、文件系统结构、编码标准以及其他因素。
在分发和共享任何信息之前,必须知道信息在什么地方,由哪些部分构成。这意味着必须已经存在一个系统,而且这个系统必须可以跨越多种不同的环境工作。这个系统构建于网格的信息基础设施之上,这也是随需应变商务环境的关键技术。
随需应变商务
IBM 的目光超越了当今的商务潮流,着眼于下一阶段的电子商务革命。随需应变商务(On Demand Business)超出了对独立过程进行转变的层面,上升到对整个商务的转变和前端事务与后端事务的集成。具体的目标包括:
- 对整个企业进行贯串整个处理周期,覆盖全部业界的集成。
- 使用的 Internet 和计算标准不仅仅包括那些只适用于电子商务的,也包括对电子商务有特殊支持,以及在需要的时候可以用于电子商务的标准。
在这样的情景之下,随需应变存储网络快速调整了使用过程中的峰值,或适应火灾或洪水等灾难,保证了业务的持续运行。开放标准的使用保证了不同硬件和软件之间具有互操作性。
这种情景能够及时引导新的解决方案,为客户支付和选择服务时提供更多的灵活性。通过采用如图 3 所示的随需应变概念,公司可以节约资金,同时获得响应力更强的计算能力,从而在竞争中获得优势。
这种新的模型要求进行重大的变革,但是这不仅仅是技术方面的路线图。它为企业在 IT 方面的需求和投资提供了重要的新选择;不过这种模型超越了基于使用的计算。随需应变的核心是用一种新的方法讨论和理解网络世界及其对商务产生影响的全部含义。要成为随需应变的企业,就必须具备随需应变的运行环境。网格计算技术构成了随需应变运行环境的基础。
网格计算可以看作随需应变商务的轴心。网格提供的是所需的技术资源,您可以在任何地点、任何时间使用,复杂度和成本都不高。不论您是行政人员、战略家、架构师、技术专家还是开发人员,都可以从现有的系统开始,对网格进行全面的试用。
简单的说,网格计算是分布式计算的下一个发展阶段。网格提供的基础设施可以支持大量的系统资源,其中包括服务器、软件、存储和网络等。它支持大量异质系统的连接和多种组合资源的共享,激发人们梦想创建一个简单而巨大的、功能很强的自管理虚拟计算机。
网格的另一个功能是更好地平衡资源的利用情况。组织中可能偶尔会出现意外活动高峰,这时要求具备更多的资源。如果应用程序启用了网格,就可以在这些峰值期间将活动转移到未充分利用的机器上。事实上有些网格实现可以转移尚未全部完成的作业。一般情况下,网格可以通过一致的方法在更大范围内的资源联邦内平衡负载。
需要考虑的关键问题
下面是在规划网格计算环境的信息基础设施时需要考虑的关键因素:
- 分布式数据
- 存储
- 网络带宽
- 数据安全
分布式数据
对分布式数据的管理和访问对于商业和公共机构而言是重要的问题。此外,对数据的定位以及提供对信息的无缝安全访问则是更大的挑战。
如下面的图 4 中的示例所示,数据虚拟化是解决这些挑战的重要步骤。当企业自身的数据和信息环境虚拟化之后,它的系统管理员就具备了更高的生产力。虚拟化也可以帮助程序员和知识工人定位和访问他们需要的信息,同时增加存储资产的利用率。有一些组织(如 Open Grid Services Architecture Data Access and Integration,OGSA-DAI)正致力于定义信息虚拟化的标准。
在 OGSA 和其他标准中,数据虚拟化服务为分布式数据处理提供了广泛的透明性,其中包括下列内容:
- 异质:数据虚拟化解决了访问以不同格式存储的数据的问题。这种数据的虚拟视角也称为数据的联邦访问,它可以使数据看起来好像来自一个数据源,而实际上是用混合格式存储和分布的。出于某些原因,要访问用不同格式存储的数据是很有挑战性的。应用程序必须执行多次 I/O 请求才能获得数据,这样的要求会降低作业的执行速度。负责构建和维护此类应用程序的编程人员必须了解不同的格式,同时必须决定如何在应用程序中将各种不同的数据结合起来。
- 全局名称:每一个数据对象都必须具有惟一的名称,这样应用程序才能在不知道数据位置的情况下访问数据。应用程序可以通过逻辑域或全局名称空间访问数据,因此应用程序只需要指定数据对象的属性,就可以查询和更新数据。
- 复制和缓冲:为了提高性能和可用性,数据可以进行缓冲或复制。访问数据的应用程序能够从这些副本中获益,而不必知道它们的存在。
存储
存储管理从来没有像现在这样复杂,对日常运行和商务策略的影响也从来没有像这样关键。必须从任何地方,在任何时候都能立即访问到所有信息。
更进一步看,特别是随着 Storage Area Networks(SAN)和 Network Attached Storage (NAS)的实现,存储资源正日驱多样化。它们在很多环境中都取代了直接附加的存储方式。此外,每个存储供应商都有自己的一组管理其设备的工具。在 SAN 环境中其他需要考虑的问题包括错误检测和数据的弹性。数据必须处于保护之下,向应用程序提供适当数据时也必须保证安全性,这一点很重要。
供应商有自己的存储管理工具,使得这些资源无法像一个逻辑整体那样管理。因此,很有可能有些资源已经超量使用了,而另一些存储单元尚未用满。这种情况通常会导致花费过量的金钱购买大量不需要的资源,而管理这些分散环境的人力资源也没有得到充分的利用。
存储需要考虑下列特征:
- 对文件的透明访问
- 文件链接
- 空间预留
- 文件状态通知
- 生命期管理
Storage Resource Manager(SRM)是存储管理的规范,它涉及上述全部问题的细节。SRM 是一种网格服务,可以向外界提供网格接口。
网络带宽
典型情况下网络的架构依赖于其预期的功能。网络架构问题包括对下列问题的决定:
- 数据在网络中的计算机之间如何流动(客户机/服务器、主机或端到端)。
- 计算机之间如何相互通信。
- 网络的整体地理布局如何。
- 该网络与其他网络如何连接(LAN、MAN 或 WAN)。
网格环境要求实现高速连接和极低延迟。但是由于在一个网格环境内部进行处理的本质,需要对数据在网格内的位置和数据组织付出额外的关注。网格基础设施必须能够处理大量的数据。
通过网络传输的数据量受到可用带宽的限制。较低的带宽要求对网格应用运行时的期望数据传输率进行仔细地规划。压缩和解压缩技术可以有效地降低需要在网络上传输的数据量和网络拥塞的程度。但是紧接着也会增加所有相关节点的技术一致性问题。如果没有就这个问题达成统一的标准,那么对网格的浏览应用可能会遭到排斥。数据虚拟化中的复制透明性也许有助于实现最佳的网络带宽管理。
数据安全
网格计算环境动态和多态的本质使得安全问题面临挑战,人们需要新的技术方法。尤其重要的是,人们必须面对多种多样的本地机制、支持服务的动态创建还要启用信任域的动态创建。网格环境必须解决关于认证、授权和访问控制等问题。数据虚拟化中的所有权透明性可以解决此类问题。
网格的信息基础设施
信息访问与集成中间件提供了处理网格信息基础设施的工具和组件(图 5)。
这一基础设施的基础主要是下面几点:
- 对数据存储的访问
- 数据位置管理
- 数据策略
对数据存储的访问
前面谈到,数据存储的格式不同,位置各异。多个物理数据库需要在逻辑上集成为一个单一的联邦单元,即所谓的数据存储联邦或联邦数据库。联邦可以统一访问虚拟数据存储中任何格式的结构化和非结构化的数字信息。
数据位置管理
网格环境代表一种持续改变的条件。网格的信息基础设施在大多数时间里都需要处理数据增强型应用程序。
一部分数据增强型应用程序就是数据位置。数据位置包括数据传输、分段运输、复制、数据布置、空间分配和回收等等。位置管理程序可自动处理故障和网络特征的变化。也可以在特征发生变化的时候进行调整,同样也是自动的。
数据策略
网格是一种分布式的异质环境,它必须在不同的数据访问策略控制之下处理不同的数据类型。数据策略管理是网格信息基础设施中的一项因素。缓冲、复本和安全性等问题都是数据策略管理的策略内容。
网格架构与标准
网格丝丝相连,由可能位于不同位置或组织的资源构成了一个统一的、安全的异质资源集合。如果没有通用的架构和互操作性协议,不同供应商的解决方案就不会实现相互对话,从而形成孤立的网格孤岛。处理多样性是一项复杂的工作,通过采纳标准可减轻其复杂性。如果标准得到广泛的接纳,会对互操作、客户灵活性和可选范围等产生推动作用,从而直接影响网格计算。
下面这些组织领导着网格计算的全球标准化工作:
- Global Grid Forum(GGF)
- Globus Alliance
- OASIS
Globus 于 2003 年 7 月发布了 OGSA 规范的第一版,即 Open Grid Services Infrastructure(OGSI)规范 1.0 版。从那时起,GGF 开始与 Globus Alliance 紧密合作,增强标准,同时将新的 Web Services Resource Framework(WSRF)规范提交给 OASIS,以便实行标准化。
这项提案包含了 OGSI 的基本原理和实际功能,可以看作对 OGSI 的发展,将 Web 服务的标准容纳进来,以满足网格服务的原理和需求。规范中的语法和术语发生了变化,并分解为若干独立的规范,其中的每一种都致力于某个特定领域。From Open Grid Services Infrastructure to WS-Resource Framework: Refactoring and Evolution Version 1.0 这篇文档介绍了下面这些标准化 WSRF 规范:
- WS-ResourceProperties,定义有状态 Web 服务
- WS-ResourceLifetime,定义 Web 服务的生命周期
- WS-RenewableReferences,定义了 Web 服务的端点引用和选址
- WS-ServiceGroup,定义了 Web 服务组的创建和使用
- WS-BaseFault,定义错误报告中使用的错误类型
- WS-Notification,定义了通知机制的框架
OASIS Web 站点包含更多细节信息。
Grid 和 Web 服务
OGSA 是按照网格服务的方式定义的(在 OGSI 1.0 版中)。网格服务与 Web 服务的结合方式是使用 Web 服务的技术。OGSA 定义的资源管理服务代表了计算资源。
网格服务技术的基础是面向服务的架构(Service-Oriented Architecture,SOA),这是一项来自 World Wide Web Consortium(W3C)的 Internet 标准。SOA 定义了由称为服务的相互独立且协作的组件组成应用程序的架构方法。这些服务是一些组装块,它们利用组件对象模型创建开放的分布式系统,使得公司和个人能够快速将自己的数字化资产发布给全世界。Web 服务可以用于构建应用程序,而这些程序由统一资源标识符(URI)标识,其接口及绑定可通过 XML 制品实现定义、描述和发现。采用这些技术,再加上基于 XML 的消息机制,并通过基于 Internet 的协议,软件应用程序就可以实现直接交互。
从 2002 年开始,Web 服务规范发生了很大的变化。网格服务的需求目前大部分已经嵌入到新发布和刚刚提出的 Web 服务规范中。图 6 描述了这种融合的情况。
网格数据服务
OGSA-DAI 是一项开放的标准,可以解决数据源的问题(网格数据服务)。它由 UK Database Task Force 负责设计,正在由网格社团开发。OGSA-DAI 与 Global Grid ForuglobalData Access and Integration Service Workgroup ,即 DAIS-WG)和 Globus Alliance 紧密协作。
OGSA-DAI 的目标是定义一种开放的标准和基于开放源代码的统一服务接口,用于在 OGSA 中访问异质数据源。这意味着它就是网格数据服务的标准。
IBM 是 Globus Alliance 的主要合作方,而后者是多方协作的网格研究开发组织。IBM 还是 Global Grid Forum 的主办人,这个论坛的任务是开发网格计算的业界标准。
- “信息网格:在任何地方、通过任何网络安全地访问任何信息”一文(developerWorks,2004 年 1 月)概要介绍了有关网格的信息。
- Global Grid Forum Web 站点中包含 Open Grid Services Architecture(OGSA)规范。
- Globus Alliance Web 站点提供了构建计算网格所需的技术。
- 获得有关 WSRF 的更多信息(developerWorks,2004 年 1 月),它定义了用 Web 服务访问有状态资源的规范族。
- 有关 OASIS 的更多信息,请参阅 OASIS Web 站点。
- 从 IBM GridWatch column 了解开发人员眼中的网格标准。
- 有关 SOA 和 Web 服务的更多信息,请访问 developerWorks 专区。
- IBM grid computing site 提供了关于 IBM 网格的更多信息。
- 有关随需应变商务的更多信息,请参阅 Developer resources for an on demand world Web site。
| 作者简介 Luis Ferreira,又名“Luix”,是 International Technical Support Organization,Austin Center 的高级软件工程师,从事 Linux 和网格计算的项目。他在 UNIX® 之类操作系统方面有 20 年的经验,包括设计、架构和实现。他从巴西 Universidade Federal do Rio de Janeiro 获得系统工程硕士学位。在加入 ITSO 之前,Luis 先后在 Tivoli® System 担当 Tivoli 认证顾问,在 IBM Brazil 担任认证 IT 专家,还有在 Cobra Computadores 从事内核开发和操作系统设计的工作。可通过 luix@us.ibm.com和他联系。 |
|
|
|
|
|
|
|
|
|
|
|
|






