大数据基础设施运维和优化
课程编码:280216085404M3009
英文名称:Big Data Infrastructure Operation and Optimization
课时:40
学分:2.00
课程属性:专业课
主讲教师:南国顺等
教学目的要求
数字化转型正在对各个行业产生深远影响。特别是过去几年在新冠肺炎疫情全球大流行,俄乌危机,全球供应链危机等一系列影响之下,全球企业界在数字化转型的迫切性越发强烈。各个企业对于业务韧性提出更重要的要求。这样的挑战和应对能力对于深度融合国际化的中国制造业企业,特别是离散电子制造业企业具有重大意义。在这样的背景下,作为承载企业数字化转型的重要方面,大数据基础设施的建设、运维与优化能力重要性进一步被凸显出来。事实证明,具有良好大数据基础设施运维与优化能力对于保证企业业务韧性,以及应对不断涌现的黑天鹅与灰犀牛事件的手段与能力也更加扎实有效。本课程结合企业实际业务场景,对大数据基础设施运维所需的基础知识与基本方法开展探讨。
本课程以案例分析的形式,围绕着云端大数据基础设施运维和优化,介绍了企业大数据环境主要面对的挑战,讨论了基础设施运维基本概念以及数据驱动运维优化技术。重点介绍企业架构技术和影响程度较大的基础设施运维活动,以及通过自研增强运维能力的实践经验,例如,双态IT与Pace-Layered架构,配置管理数据库和IT服务管理,容量管理与平台搬迁,跨国多云大数据平台自动化交付和生命周期管理,监控和报警系统,基于规则引擎的自动化巡检,基于最优化的云平台资源自动化调度等内容。在完成本课程学习后,学生应该掌握多云大数据基础设施运维基本概念,识别主要风险,开展风险应对活动和数据驱动运维优化方法。
预修课程
无
大纲内容
第一章 企业部署大数据应用可能遇到的挑战
第1节 企业部署大数据的基本概念 0.5学时 裴昶华
第2节 不同业务场景下部署大数据应用的主要困难与挑战 1.5学时 裴昶华
第二章 典型的企业架构以及企业大数据应用场景
第1节 双态 IT 架构 0.2学时 裴昶华
第2节 Pace-Layered 架构 0.3学时 裴昶华
第3节 敏捷与双态 IT 架构的关系 0.5学时 裴昶华
第4节 大数据应用和基础设施交付与运维能力的要求 1学时 裴昶华
第三章 大数据方案选型
第1节 Service Portfolio 基本概念 0.5学时 裴昶华
第2节 服务目录基本概念和设计流程 0.5学时 裴昶华
第3节 企业大数据应用落地场景 0.5学时 裴昶华
第4节 交付大数据平台的策略 0.5学时 裴昶华
第四章 传统 IT 服务管理的基本概念和流程
第1节 配置管理数据库 0.5学时 裴昶华
第2节 运维知识库 0.5学时 裴昶华
第3节 IT服务管理系统 0.5学时 裴昶华
第4节 企业落地各个运维管理系统 0.5学时 裴昶华
第五章 变更管理、二线运维与紧急事件响应
第1节 基础设施变更管理流程 1学时 裴昶华
第2节 紧急事件处理流程 1学时 裴昶华
第六章 监控与报警管理
第1节 监控数据采集 0.2学时 南国顺
第2节 日志采集 0.3学时 南国顺
第3节 数据分析 0.5学时 南国顺
第4节 复杂事件处理 1学时 南国顺
第七章 巡检与配置管理
第1节 规则引擎 1学时 南国顺
第2节 巡检与配置管理 1学时 南国顺
第八章 补丁升级
第1节 大数据平台补丁管理 1学时 裴昶华
第2节 变更流程与风险应对 1学时 裴昶华
第九章 容量管理和扩容
第1节 资源交付模式 0.5学时 裴昶华
第2节 容量预测 1学时 裴昶华
第3节 扩容与容量管理 0.5学时 裴昶华
第十章 平台搬迁和大版本升级
第1节 基础设施迁移 0.5学时 裴昶华
第2节 平台搬迁流程 1学时 裴昶华
第3节 平台搬迁风险应对方法 0.5学时 裴昶华
第十一章 基础设施环境与大数据平台的能力增强
第1节 基础设施数据库解析 1学时 裴昶华
第2节 软件定义基础设施 API 0.5学时 裴昶华
第3节 基础设施和大数据平台能力增强 0.5学时 裴昶华
第十二章 数据驱动基础设施优化
第1节 典型数据科学和分析工具 0.5学时 裴昶华
第2节 应用数据科学的运维案例 1学时 裴昶华
第3节 应用最优化方法的运维案例 0.5学时 裴昶华
教材信息
1、
企业级大数据平台构建:架构与实现
朱凯
2018年5月
机械工业出版社
参考书
1、
大数据技术体系详解:原理、架构与实践
董西成
2018.03
机械工业出版社
课程教师信息
南国顺,北邮研究员,博导,张平院士团队,国家重点研发计划项目负责人,深圳网络安全国家级示范区申报项目负责人,移动互联网安全技术国家工程研究中心主任助理,北邮高层次A类人才,在人工智能顶会SIGKDD,CVPR,ACL以第一作者/通讯作者发表40余篇高质量论文,与国内电信运营商政府有机构有广泛合作
裴昶华,清华大学本科、直博、阿里巴巴与清华联合培养企业博士后,现为中国科学院计算机网络信息中心副研究员,国科大杭州高等研究院讲席教授,中国科学院“百人计划”引进人才,从事运维大模型、智能运维(时序异常检测、日志异常检测、故障定位等),ai for networking交叉学科研究,相关成果获得MIT Technology Review 和Hacker News报道,论文发表在FSE、WWW,SIGKDD, SIGIR, INFOCOM, CIKM, WSDM, RecSys, IWQoS等国际会议上,Google Scholar引用超2800。获得2023年ISSRE最佳论文奖(通信作者),2019年RecSys最佳论文奖提名。担任NeurIPS,SIGKDD,WWW,SDM审稿人。担任中国计算机学会2024(第七届)CCF国际AIOps挑战赛程序委员会主席。承担中国科学院“十四五”科教基础设施建设专项智能运管项目,国家重点研发计划青年科学家项目多模态网络与通信实验验证和平台建设项目。搭建并发布国内首个运维大模型评测榜单OpsEval和时间序列异常检测算法评测平台TimeSeriesBench,平台包含17500道评测题目,互联网、通信、云计算、金融、证券等多家国内知名智能运维公司和科研单位参与。