中山大学高性能与网格计算平台运行维护管理办法

        第一章    岗位管理

        第一条  高性能与网格计算平台现场维护工作包括系统平台维护、应用维护、网络设备维护、平台监控、安全管理、客户综合服务等方面。维护人员应具备服务器、网络设备、数据库、操作系统、应用软件、计算机安全等维护技能,具备较强的故障及应急处理能力。
        第二条  高性能与网格计算平台岗位采用岗位人员后备制度:一个岗位配备两名以上系统管理员,一个管理员主要负责平台日常的管理工作,其他管理员(助理管理员)应掌握平台情况和管理知识,并在主要管理员外出的时候担负管理平台的职责。高性能与网格计算平台重大故障恢复或配置变更操作必须在两名以上管理员在场的情况下才能进行。
        第三条  平台环境的运行维护,必须保证节点7×24小时在线,保证应用系统资源的正常运行。维护人员应该确保在5x8或7x24个人通信的畅通以及2小时到达现场的能力。
        第四条  平台管理员应通过不断学习,掌握新的服务器系统等管理技术,以应付不断变化的IT环境。

        第二章    用户管理及流程

        第一条  高性能与网格计算平台的用户账号管理实行“书面申请、审批开户、定期审阅”制度,账号的申请、权限的变更、空间的扩容、账号的禁用等都需要经过申请和审批。
        第二条  管理员须严格根据用户申请信息及审批意见,对用户账号及权限进行相应的变更操作。用户申请信息存在有错误、不完整等引起变更操作无法完成的,应及时与用户联系。
        第三条  管理员应定期审阅用户是否妥善保管自己的账号和密码,是否将账号借给他人或从事课题以外的活动。

        第三章    作业及其资源管理

        第一条  管理员根据用户及其研究内容设定用户作业及其使用计算资源的优先级。参与建设高性能与网格计算平台的院系用户以及冲击国际前沿水平、涉及重大基础理论研究或涉及国民经济重大应用的国家级课题用户拥有使用计算资源的较高优先级。
        第二条  管理员定期向用户收集通过高性能与网格计算平台产生的成果,并根据用户的研究进度和成果调整用户使用计算资源的优先级。

第四章     配置变更和故障管理

        第一条  变更是指网络设备、服务器设备、应用系统等软硬件的版本、程序、配置等的改变。变更分为一般变更、重大变更和紧急变更。
        第二条  管理员进行生产服务器的配置变更操作,必须执行服务器配置变更管理,事前必须经过详尽的测试和计划。
        第三条  变更需要对节点计算资源设备临时关机或暂停计算服务,需至少提前1天发通知,通知的内容包括:停止服务的原因与时间,预计恢复正常服务的时间。
        第四条  故障分为用户故障和系统故障两类。用户故障是指由于用户终端方面原因引起的使用上的故障。系统故障是指由于系统软、硬件原因而引起的使用上的故障。此处特指系统故障。
        第五条  发生故障,应及时通知用户,并在校园网发布通告。已经购买相关硬件、系统和应用程序服务的,管理员应该首先借助服务判断故障原因,并按照相关人员建议处理故障,并记录故障发生的时间、故障情况、处理方法以及将来预防措施等。没有购买服务的,根据中心制定处理流程修复故障。故障处理过程必须以快速抢通为主,故障处理后再分析故障起因。
        第六条  管理员应对系统运行进行定期检查。

第五章    安全管理

        第一条  服务器超级用户的密码要定期更换,密码设定要有一定的规定,不能少于八位。超级用户密码必须登记在册并按有关规定妥善保管,系统管理员不得对任何无关人员泄露。用户密码由相关用户自行设定,系统管理员要严守保密制度,不得泄漏用户密码。
        第二条  为了确保服务等级,系统管理员不得在生产服务器上进行测试实验,不得在生产服务器上进行与服务无关的操作(例如浏览网页、下载程序等)。系统管理员不得在生产服务器上安装与服务无关的软件或放置与服务无关的数据。
        第三条  系统管理员必须定期安装操作系统、应用程序的补丁包,对于高危高风险的补丁包应该按照要求及时安装。
        第四条  所有服务器必须安装防病毒软件,并及时升级病毒定义文件。管理员应该定期对服务器进行全面的病毒检测,发现问题应及时向中心安全管理员汇报并协同解决。
        第五条  所有生产服务器必须实施日志管理制度,按照国家和学校有关规定保存系统和应用程序日志。
        第六条  管理员必须定期对服务器进行操作系统、应用程序和数据的备份。按照不同的服务等级,对不同的服务器实施离线备份、在线备份、热备份和双机热备等不同的备份策略。
        第七条  管理员应对服务器进行资源监控,包括硬件、系统资源和应用资源的监控。硬件监控,应该利用硬件厂商提供的监控软件;系统资源监控,主要针对CPU、内存、I/O活动情况的监控;针对应用资源,主要利用应用程序的监控功能。管理员应该利用各种资源监控手段确保服务器能力,保障服务等级。

        第六章    技术文档和资料管理

        第一条  各类技术文档和原始记录是做好系统运行维护的前提,系统管理员必须建立健全必要技术资料和原始记录。包括软件的介质、版本资料及补丁资料;所有软件的安装及操作使用手册、系统维护手册、应用开发指南等相关技术资料。
        第二条  管理员应根据系统变更和运行的情况,及时更新技术文档。须更新的资料包括维护资料、使用手册、系统程序修改后的变更清单等,保证提供的资料能够和当前运行的系统同步,以便于对系统的维护。

        第七章    平台技术支持及应用培训管理

        第一条  各级维护人员需要为用户提供立体化、实时/非实时多种技术支持手段,如电话、电子邮件、即时通工具、网站、论坛等。
        第二条  面对师生作技术支持时,要有良好的服务态度并遵守服务承诺:所有问题在工作日内能即时响应,各类问题1-3个工作日给予答复和解决。
        第三条  培训维护人员需要定期对教师用户开展高性能与网格计算平台使用培训,解决他们在平台使用中实际碰到的问题。