国产第1页_91在线亚洲_中文字幕成人_99久久久久久_五月宗合网_久久久久国产一区二区三区四区

讀書月攻略拿走直接抄!
歡迎光臨中圖網 請 | 注冊

包郵 SRE Google運維解密

出版社:電子工業出版社出版時間:2016-10-01
開本: 32開 頁數: 480
中 圖 價:¥42.0(3.9折) 定價  ¥108.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
溫馨提示:5折以下圖書主要為出版社尾貨,大部分為全新(有塑封/無塑封),個別圖書品相8-9成新、切口
有劃線標記、光盤等附件不全詳細品相說明>>
本類五星書更多>

SRE Google運維解密 版權信息

SRE Google運維解密 本書特色

大型軟件系統生命周期的絕大部分都處于“使用”階段,而非“設計”或“實現”階段。那么為什么我們卻總是認為軟件工程應該首要關注設計和實現呢?在《SRE:Google運維解密》中,Google SRE的關鍵成員解釋了他們是如何對軟件進行生命周期的整體性關注的,以及為什么這樣做能夠幫助Google成功地構建、部署、監控和運維世界上現存*大的軟件系統。通過閱讀《SRE:Google運維解密》,讀者可以學習到Google工程師在提高系統部署規模、改進可靠性和資源利用效率方面的指導思想與具體實踐——這些都是可以立即直接應用的寶貴經驗。 任何一個想要創建、擴展大規模集成系統的人都應該閱讀《SRE:Google運維解密》。《SRE:Google運維解密》針對如何構建一個可長期維護的系統提供了非常寶貴的實踐經驗。

SRE Google運維解密 內容簡介

√ 超級暢銷書,Amazon主站排名*,打標#1 Best Seller √ 運維高燒不退,谷歌神書問世,繼續為這一熱潮推波助瀾 √ 本書解密全球*神秘*讓人仰望的技術崗位——谷歌SRE √ 未出先火,本書原著問世時各大社區火爆異常、人氣爆棚

SRE Google運維解密 目錄

前言 xxxi
序言 xxxv
第Ⅰ部分 概覽
第1 章 介紹 2
系統管理員模式 2
Google 的解決之道:SRE 4
SRE 方法論 6
確保長期關注研發工作 6
在保障服務SLO 的前提下*大化迭代速度 7
監控系統 8
應急事件處理 8
變更管理 9
需求預測和容量規劃 9
資源部署 10前言 xxxi 序言 xxxv 第Ⅰ部分 概覽 第1 章 介紹 2 系統管理員模式 2 Google 的解決之道:SRE 4 SRE 方法論 6 確保長期關注研發工作 6 在保障服務SLO 的前提下*大化迭代速度 7 監控系統 8 應急事件處理 8 變更管理 9 需求預測和容量規劃 9 資源部署 10 效率與性能 10 小結 10 第2 章 Google 生產環境:SRE 視角 11 硬件 11 管理物理服務器的系統管理軟件 13 管理物理服務器 13 存儲 14 網絡 15 其他系統軟件 16 分布式鎖服務 16 監控與警報系統 16 軟件基礎設施 17 研發環境 17 莎士比亞搜索:一個示范服務 18 用戶請求的處理過程 18 任務和數據的組織方式 19 第Ⅱ部分 指導思想 第3 章 擁抱風險 23 管理風險 23 度量服務的風險 24 服務的風險容忍度 25 辨別消費者服務的風險容忍度 26 基礎設施服務的風險容忍度 28 使用錯誤預算的目的 30 錯誤預算的構建過程 31 好處 32 第4 章 服務質量目標 34 服務質量術語 34 指標 34 目標 35 協議 36 指標在實踐中的應用 37 運維人員和*終用戶各關心什么 37 指標的收集 37 匯總 38 指標的標準化 39 目標在實踐中的應用 39 目標的定義 40 目標的選擇 40 控制手段 42 SLO 可以建立用戶預期 42 協議在實踐中的應用 43 第5 章 減少瑣事 44 瑣事的定義 44 為什么瑣事越少越好 45 什么算作工程工作 46 瑣事繁多是不是一定不好 47 小結 48 第6 章 分布式系統的監控 49 術語定義 49 為什么要監控 50 對監控系統設置合理預期 51 現象與原因 52 黑盒監控與白盒監控 53 4 個黃金指標 53 關于長尾問題 54 度量指標時采用合適的精度 55 簡化,直到不能再簡化 55 將上述理念整合起來 56 監控系統的長期維護 57 Bigtable SRE :警報過多的案例 57 Gmail :可預知的、可腳本化的人工干預 58 長跑 59 小結 59 第7 章 Google 的自動化系統的演進 60 自動化的價值 60 一致性 60 平臺性 61 修復速度更快 61 行動速度更快 62 節省時間 62 自動化對Google SRE 的價值 62 自動化的應用案例 63 Google SRE 的自動化使用案例 63 自動化分類的層次結構 64 讓自己脫離工作:自動化所有的東西 66 舒緩疼痛:將自動化應用到集群上線中 67 使用Prodtest 檢測不一致情況 68 冪等地解決不一致情況 69 專業化傾向 71 以服務為導向的集群上線流程 72 Borg :倉庫規模計算機的誕生 73 可靠性是*基本的功能 74 建議 75 第8 章 發布工程 76 發布工程師的角色 76 發布工程哲學 77 自服務模型 77 追求速度 77 密閉性 77 強調策略和流程 78 持續構建與部署 78 構建 78 分支 79 測試 79 打包 79 Rapid 系統 80 部署 81 配置管理 81 小結 82 不僅僅只對Google 有用 83 一開始就進行發布工程 83 第9 章 簡單化 85 系統的穩定性與靈活性 85 乏味是一種美德 86 我絕對不放棄我的代碼 86 “負代碼行”作為一個指標 87 *小 API 87 模塊化 87 發布的簡單化 88 小結 88 第Ⅲ部分 具體實踐 第10 章 基于時間序列數據進行有效報警 93 Borgmon 的起源 94 應用軟件的監控埋點 95 監控指標的收集 96 時間序列數據的存儲 97 標簽與向量 98 Borg 規則計算 99 報警 104 監控系統的分片機制 105 黑盒監控 106 配置文件的維護 106 十年之后 108 第11 章 on-call 輪值 109 介紹 109 on-call 工程師的一天 110 on-call 工作平衡 111 數量上保持平衡 111 質量上保持平衡 111 補貼措施 112 安全感 112 避免運維壓力過大 114 運維壓力過大 114 奸詐的敵人—運維壓力不夠 115 小結 115 第12 章 有效的故障排查手段 116 理論 117 實踐 119 故障報告 119 定位 119 檢查 120 診斷 122 測試和修復 124 神奇的負面結果 125 治愈 126 案例分析 127 使故障排查更簡單 130 小結 130 第13 章 緊急事件響應 131 當系統出現問題時怎么辦 131 測試導致的緊急事故 132 細節 132 響應 132 事后總結 132 變更部署帶來的緊急事故 133 細節 133 事故響應 134 事后總結 134 流程導致的嚴重事故 135 細節 135 災難響應 136 事后總結 136 所有的問題都有解決方案 137 向過去學習,而不是重復它 138 為事故保留記錄 138 提出那些大的,甚至不可能的問題:假如…… 138 鼓勵主動測試 138 小結 138 第14 章 緊急事故管理 140 無流程管理的緊急事故 140 對這次無流程管理的事故的剖析 141 過于關注技術問題 141 溝通不暢 141 不請自來 142 緊急事故的流程管理要素 142 嵌套式職責分離 142 控制中心 143 實時事故狀態文檔 143 明確公開的職責交接 143 一次流程管理良好的事故 144 什么時候對外宣布事故 144 小結 145 第15 章 事后總結:從失敗中學習 146 Google 的事后總結哲學 146 協作和知識共享 148 建立事后總結文化 149 小結以及不斷優化 151 第16 章 跟蹤故障 152 Escalator 152 Outalator 153 聚合 154 加標簽 155 分析 155 未預料到的好處 156 第17 章 測試可靠性 157 軟件測試的類型 158 傳統測試 159 生產測試 160 創造一個構建和測試環境 163 大規模測試 165 測試大規模使用的工具 166 針對災難的測試 167 對速度的渴求 168 發布到生產環境 170 允許測試失敗 170 集成 172 生產環境探針 173 小結 175 第18 章 SRE 部門中的軟件工程實踐 176 為什么軟件工程項目對SRE 很重要 176 Auxon 案例分析:項目背景和要解決的問題 177 傳統的容量規劃方法 177 解決方案:基于意圖的容量規劃 179 基于意圖的容量規劃 180 表達產品意圖的先導條件 181 Auxon 簡介 182 需求和實現:成功和不足 183 提升了解程度,推進采用率 185 團隊內部組成 187 在SRE 團隊中培養軟件工程風氣 187 在SRE 團隊中建立起軟件工程氛圍:招聘與開發時間 188 做到這一點 189 小結 190 第19 章 前端服務器的負載均衡 191 有時候硬件并不能解決問題 191 使用DNS 進行負載均衡 192 負載均衡:虛擬IP 194 第20 章 數據中心內部的負載均衡系統 197 理想情況 198 識別異常任務:流速控制和跛腳鴨任務 199 異常任務的簡單應對辦法:流速控制 199 一個可靠的識別異常任務的方法:跛腳鴨狀態 200 利用劃分子集限制連接池大小 201 選擇合適的子集 201 子集選擇算法一:隨機選擇 202 子集選擇算法二:確定性算法 204 負載均衡策略 206 簡單輪詢算法 206 *閑輪詢策略 209 加權輪詢策略 210 第21 章 應對過載 212 QPS 陷阱 213 給每個用戶設置限制 213 客戶端側的節流機制 214 重要性 216 資源利用率信號 217 處理過載錯誤 217 決定何時重試 218 連接造成的負載 220 小結 221 第22 章 處理連鎖故障 223 連鎖故障產生的原因和如何從設計上避免 224 服務器過載 224 資源耗盡 225 服務不可用 228 防止軟件服務器過載 228 隊列管理 229 流量拋棄和優雅降級 230 重試 231 請求延遲和截止時間 234 慢啟動和冷緩存 236 保持調用棧永遠向下 238 連鎖故障的觸發條件 238 進程崩潰 239 進程更新 239 新的發布 239 自然增長 239 計劃中或計劃外的不可用 239 連鎖故障的測試 240 測試直到出現故障,還要繼續測試 240 測試*常用的客戶端 241 測試非關鍵性后端 242 解決連鎖故障的立即步驟 242 增加資源 242 停止健康檢查導致的任務死亡 242 重啟軟件服務器 242 丟棄流量 243 進入降級模式 243 消除批處理負載 244 消除有害的流量 244 小結 244 第23 章 管理關鍵狀態:利用分布式共識來提高可靠性 246 使用共識系統的動力:分布式系統協調失敗 248 案例1 :腦裂問題 249 案例2 :需要人工干預的災備切換 249 案例3 :有問題的小組成員算法 249 分布式共識是如何工作的 250 Paxos 概要:協議示例 251 分布式共識的系統架構模式 251 可靠的復制狀態機 252 可靠的復制數據存儲和配置存儲 252 使用領頭人選舉機制實現高可用的處理系統 253 分布式協調和鎖服務 253 可靠的分布式隊列和消息傳遞 254 分布式共識系統的性能問題 255 復合式Paxos :消息流過程詳解 257 應對大量的讀操作 258 法定租約 259 分布式共識系統的性能與網絡延遲 259 快速Paxos 協議:性能優化 260 穩定的領頭人機制 261 批處理 262 磁盤訪問 262 分布式共識系統的部署 263 副本的數量 263 副本的位置 265 容量規劃和負載均衡 266 對分布式共識系統的監控 270 小結 272 第24 章 分布式周期性任務系統 273 Cron 273 介紹 273 可靠性 274 Cron 任務和冪等性 274 大規模Cron 系統 275 對基礎設施的擴展 275 對需求的擴展 276 Google Cron 系統的構建過程 277 跟蹤Cron 任務的狀態 277 Paxos 協議的使用 277 領頭人角色和追隨者角色 278 保存狀態 281 運維大型Cron 系統 282 小結 283 第25 章 數據處理流水線 284 流水線設計模式的起源 284 簡單流水線設計模式與大數據 284 周期性流水線模式的挑戰 285 工作分發不均造成的問題 285 分布式環境中周期性數據流水線的缺點 286 監控周期性流水線的問題 287 驚群效應 287 摩爾負載模式 288 Google Workflow 簡介 289 Workflow 是模型—視圖—控制器(MVC)模式 290 Workflow 中的執行階段 291 Workflow 正確性保障 291 保障業務的持續性 292 小結 294 第26 章 數據完整性:讀寫一致 295 數據完整性的強需求 296 提供超高的數據完整性的策略 297 備份與存檔 298 云計算環境下的需求 299 保障數據完整性和可用性:Google SRE 的目標 300 數據完整性是手段,數據可用性是目標 300 交付一個恢復系統,而非備份系統 301 造成數據丟失的事故類型 301 維護數據完整性的深度和廣度的困難之處 303 Google SRE 保障數據完整性的手段 304 24 種數據完整性的事故組合 304 **層: 軟刪除 305 第二層:備份和相關的恢復方法 306 額外一層:復制機制 308 1T vs. 1E :存儲更多數據沒那么簡單 309 第三層:早期預警 310 確保數據恢復策略可以正常工作 313 案例分析 314 Gmail—2011 年2 月:從GTape 上恢復數據( 磁帶) 314 Google Music—2012 年3 月:一次意外刪除事故的檢測過程 315 SRE 的基本理念在數據完整性上的應用 319 保持初學者的心態 319 信任但要驗證 320 xxvi | 目錄 不要一廂情愿 320 縱深防御 320 小結 321 第27 章 可靠地進行產品的大規模發布 322 發布協調工程師 323 發布協調工程師的角色 324 建立發布流程 325 發布檢查列表 326 推動融合和簡化 326 發布未知的產品 327 起草一個發布檢查列表 327 架構與依賴 328 集成 328 容量規劃 328 故障模式 329 客戶端行為 329 流程與自動化 330 開發流程 330 外部依賴 331 發布計劃 331 可靠發布所需要的方法論 332 灰度和階段性發布 332 功能開關框架 333 應對客戶端濫用行為 334 過載行為和壓力測試 335 LCE 的發展 335 LCE 檢查列表的變遷 336 LCE 沒有解決的問題 337 小結 338 第Ⅳ部分 管理 第28 章 迅速培養SRE 加入on-call 341 新的SRE 已經招聘到了,接下來怎么辦 341 培訓初期:重體系,而非混亂 344 系統性、累積型的學習方式 345 目標性強的項目工作,而非瑣事 346 培養反向工程能力和隨機應變能力 347 反向工程:弄明白系統如何工作 347 統計學和比較性思維:在壓力下堅持科學方法論 347 隨機應變的能力:當意料之外的事情發生時怎么辦 348 將知識串聯起來:反向工程某個生產環境服務 348 有抱負的on-call 工程師的5 個特點 349 對事故的渴望:事后總結的閱讀和書寫 349 故障處理分角色演習 350 破壞真的東西,并且修復它們 351 維護文檔是學徒任務的一部分 352 盡早、盡快見習on-call 353 on-call 之后:通過培訓的儀式感,以及日后的持續教育 354 小結 354 第29 章 處理中斷性任務 355 管理運維負載 356 如何決策對中斷性任務的處理策略 356 不完美的機器 357 流狀態 357 將一件事情做好 358 實際一點的建議 359 減少中斷 361 第30 章 通過嵌入SRE 的方式幫助團隊從運維過載中恢復 363 **階段:了解服務,了解上下文 364 確定*大的壓力來源 364 找到導火索 364 第二階段:分享背景知識 365 書寫一個好的事后總結作為示范 366 將緊急事件按類型排序 366 第三階段:主導改變 367 從基礎開始 367 獲取團隊成員的幫助 367 解釋你的邏輯推理過程 368 提出引導性問題 368 小結 369 第 31 章 SRE 與其他團隊的溝通與協作 370 溝通:生產會議 371 議程 372 出席人員 373 SRE 的內部協作 374 團隊構成 375 高效工作的技術 375 SRE 內部的協作案例分析:Viceroy 376 Viceroy 的誕生 376 所面臨的挑戰 378 建議 379 SRE 與其他部門之間的協作 380 案例分析:將DFP 遷移到F1 380 小結 382 第32 章 SRE 參與模式的演進歷程 383 SRE 參與模式:是什么、怎么樣以及為什么 383 PRR 模型 384 SRE 參與模型 384 替代性支持 385 PRR :簡單PRR 模型 386 參與 386 分析 387 改進和重構 387 培訓 388 “接手”服務 388 持續改進 388 簡單PRR 模型的演進:早期參與模型 389 早期參與模型的適用對象 389 早期參與模型的優勢 390 不斷發展的服務:框架和SRE 平臺 391 經驗教訓 391 影響SRE 的外部因素 392 結構化的解決方案:框架 392 新服務和管理優勢 394 小結 395 第Ⅴ部分 結束語 第33 章 其他行業的實踐經驗 398 有其他行業背景的資深SRE 399 災難預案與演習 400 從組織架構層面堅持不懈地對安全進行關注 401 關注任何細節 401 冗余容量 401 模擬以及進行線上災難演習 402 培訓與考核 402 對詳細的需求收集和系統設計的關注 402 縱深防御 403 事后總結的文化 403 將重復性工作自動化,消除運維負載 404 結構化和理性的決策 406 小結 407 第34 章 結語 408 附錄A 系統可用性 411 附錄B 生產環境運維過程中的*佳實踐 412 附錄C 事故狀態文檔示范 417 附錄D 事后總結示范 419 附錄E 發布協調檢查列表 423 附錄F 生產環境會議記錄示范 425 參考文獻 427 索引 439__信息
展開全部

SRE Google運維解密 相關資料

我們都知道 Google公司的分布式系統設計和實現在業界遙遙領先,這些分布式系統多年前就已經運行在百萬臺服務器上,很多公司也都在覬覦這么多服務器是如何運行和管理的。本書揭開了這層神秘的面紗, SRE就是運行和管理這百萬臺服務器和眾多分布式系統的關鍵。
多年前,Google是通過發布技術論文幫助業界解決分布式難題的,如今各種分布式系統百花齊放,如何管理這些系統對傳統的運維技術和理念產生了極大的挑戰,現在 Google給我們帶來了技術指導和最佳實踐。該書匯集了 Google多年生產環境的管理經驗,連編寫工作都采用了分布式實現的方法,由各個領域的資深專家聯合創作而成?梢园驯緯醋魇且蛔鶡羲,很多公司的集群規模還遠達不到 Google的規模,但是參照本書中的技術指導和最佳實踐,不僅可以加速傳統運維向 SRE的進化,更重要的是可以幫助公司高效地運維和管理各種復雜的分布式系統。
——呂宏利,Google Ads SRE
我們都知道 Google公司的分布式系統設計和實現在業界遙遙領先,這些分布式系統多年前就已經運行在百萬臺服務器上,很多公司也都在覬覦這么多服務器是如何運行和管理的。本書揭開了這層神秘的面紗, SRE就是運行和管理這百萬臺服務器和眾多分布式系統的關鍵。 多年前,Google是通過發布技術論文幫助業界解決分布式難題的,如今各種分布式系統百花齊放,如何管理這些系統對傳統的運維技術和理念產生了極大的挑戰,現在 Google給我們帶來了技術指導和最佳實踐。該書匯集了 Google多年生產環境的管理經驗,連編寫工作都采用了分布式實現的方法,由各個領域的資深專家聯合創作而成?梢园驯緯醋魇且蛔鶡羲,很多公司的集群規模還遠達不到 Google的規模,但是參照本書中的技術指導和最佳實踐,不僅可以加速傳統運維向 SRE的進化,更重要的是可以幫助公司高效地運維和管理各種復雜的分布式系統。 ——呂宏利,Google Ads SRE 信息技術領域是英文縮寫詞的高產領域,幾乎所有的新概念、新技術和新產品的推出甚至一場市場營銷的策劃都會伴隨著新的英文縮寫詞的出現。 SRE這個縮寫,在公司內部不僅代表了一個全新的運維理念和其伴隨的嶄新的工程領域、一套完整的系統運維體系和其對應的最佳實踐,而且也是我和我的好朋友——本書的譯者孫宇聰一起工作了數年的戰斗集體。而本書的作者們也都是這個大集體中的師長和伙伴。 系統運維長久以來都依賴實踐積累之上的口口相傳,經驗通常是領域從業者手里掌握的秘訣。本書從實踐出發,匯集了眾多業內頂尖的系統運維人員的實戰心得,理論基礎和實操指導并重,系統化地闡述了在新一代信息系統架構(大規模、分布式、高并發、多業務、多租戶)下系統運維的理念(當前被廣泛接受并被大量實踐的 DevOps就起源于此)、思路、最佳實踐以及對應的組織架構和人員管理的方方面面,是系統運維領域從業人員不可多得的參考和學習資料。本書是對新時代系統運維領域實踐的總結和理論升華。 本書的譯者孫宇聰在生活中是一個略顯粗獷的大男人,但對于本書的翻譯,他充分發揮了自己在這個領域中多年的從業經驗和對系統運維的深刻理解,細致入微地做到內容和語言兩個方面的精準和優美,這在翻譯的技術圖書中是非常難得的。 ——張矩,鋒瑞資本執行董事,前 Google SRE 很高興受譯者孫宇聰邀請為該書寫推薦序,這本書是 Google的 SRE部門多年實踐的總結,孫宇聰本人也在 Google SRE部門工作多年。SRE部門在 Google真正落實了 DevOps。 SRE工程師在 Google不只是維護各種線上服務的穩定性,還要負責保證各項服務的性能,同時負責管理維護數據中心。美國多家互聯網公司都在依照 Google的方式來組織和運作 SRE部門,可以說 SRE被 Google發揚光大,Google的 SRE實踐正在成為 DevOps的標準。 SRE和傳統的 IT運維有很大區別,SRE真正實現了 DevOps:首先, SRE深度參與開發階段的工作,對應用程序的設計實現方式、依賴庫、運行時的資源消耗都有嚴格的規約;其次,SRE工程師本身也要做不少編程工作,來實現各種工具用以自動解決問題和故障,換句話說,SRE強調的是對問題和故障的自動處理,而非人工干預;再者,按照 SRE的約定,開發人員自行負責程序上線部署更新,畢竟開發人員對自己開發的程序更熟悉,易于處理程序上線過程中遇到的問題?傊鳛 Google的 DevOps實踐,SRE非常注重開發和運維職能的結合,極大地加快了業務應用迭代周期,提升了 IT對業務的支撐能力。 隨著 DevOps在國內的宣傳推廣,國內的很多企業客戶也逐漸接受了 DevOps的理念,但是在具體落地實踐 DevOps的過程中缺乏實際案例作為參照。本書的推出,方便了國內廣大 IT人員在落地 DevOps過程中參照 Google的 SRE實踐。非常感謝孫宇聰把這么好的一本書翻譯成中文。 ——王璞,數人云創始人 Google首創了 SRE這個職業,并將其 SRE思想體系和方法論貢獻出來匯集成此書。中文版的及時出版,使得國內廣大運維從業者可以更高效地賞閱并實踐。很榮幸此書在 GOPS全球運維大會首發,高效運維社區將繼續作為 Google SRE國內第一傳播平臺,推進其和《互聯網應用運維框架及能力模型》(本書譯者孫宇聰先生聯合撰寫)的融合,促進其在中國運維行業的落地生根、蓬勃發展。 ——蕭田國,高效運維社區發起人,開放運維聯盟聯合主席 從接觸 Google SRE的概念開始,就感受到它神秘地存在,直到看到英文版的 SRE書籍,才知道它對傳統運維的顛覆性。本書的面世,讓國內更多的運維人員接觸到 Google先進的運維理論與實踐。個人堅信這種理論和實踐的提升與改變,才是運維人的出路,運維的業務價值、行業價值便也隨之而來。運維也可以“高大上”地存在! ——王津銀,“精益運維”發起人;優維科技創始人;開放運維聯盟發起人之一;開放運維聯盟應用標準規范組組長、起草人 大型互聯網應用的部署規模從幾千臺到幾十萬臺不一,隨著軟件系統的復雜度提升也呈現出越來越龐大的趨勢,如何通過少數人力管理好龐大復雜的應用環境?如何在環境極度復雜的情況下確保軟件的服務質量?如何在確保質量的情況下優化軟件迭代速度?很多問題困擾著項目管理者、產品經理、軟件工程師、運維人員。本書從 Google所面臨的問題、價值觀、解決方案、體系建設、最佳實踐等方面理論結合實際,非常具備指導意義,每一個希望提高工作效率、改進工作成果的技術和管理人員都應該認真閱讀理解,結合自身工作環境進行實踐,找出一條適合自己的持續發展之路。 ——莫顯峰,Ucloud聯合創始人,CTO Google豐富的產品與服務已成為全球多數網民每天生活的一部分,而支撐這許多應用的是其背后龐大的基礎設施。為了更有效地保證用戶體驗,Google建立了獨樹一幟的運維體系并稱之為 SRE(Site Reliability Engineering)。絕大部分傳統 IT公司會雇傭系統管理員( sysadmin)來運維復雜的計算機系統,但由于大部分工作依靠手工操作,所以隨著用戶增長,Sysadmin的團隊也必須相應地增長。Google SRE團隊的精華在于研發軟件系統,將運維自動化以替代傳統模型中的人工操作。這本書詳細地描述了 Google SRE的原則與理念,并列舉了實際案例來說明如何靈活運用這些準則。 孫宇聰在 Google任職八年。他不僅精通基礎設施的各個方面,還熱衷于鉆研平臺架構。他致力于為中文讀者解析 Google運維的竅門,于是在繁忙的工作之余,翻譯了這本由他的原同事們撰寫的書。由于 Google的規模很大,許多人可能認為 Google的做法無法效仿,但書中描述的原則與道理是可以觸類旁通的。書中提及許多實用的道理,比如, 100%的可用性是不現實的,需要達到這個目標的成本通常遠超于所能獲得的價值,所以 Google會針對每種產品設定一個錯誤預算(容錯率),既能保證用戶體驗又不影響創新和部署的速度。 我希望讀者像我一樣,通過閱讀這本書,能學習到如何更有效地運維自己的產品與平臺。 ——Joe Zhu,Zenlayer創始人 Google SRE團隊通過寫作本書為整個運維行業做出了巨大的貢獻。通過本書,他們將指導思想、最佳實踐和常見的應用架構模式以及團隊建設模式共享出來,揭示了 Google如何能夠持續不斷地建設、部署世界級的工程項目,同時保持世界一流的可靠性標準。每個感興趣的人都應該通讀本書,切身嘗試書里提到的一些想法。 Jez Humble,Continuous Delivery和 Lean Enterprise書籍的共同作者 我還記得 Google第一次在運維技術論壇上發表的演講。感覺就像聽了一場野生動物專家針對兩棲爬行動物的專題介紹。演講非常有意思,但是由于演講的內容和觀眾的日常工作感覺距離太遙遠,因此演講的效果并不好。 隨著 IT行業的不斷改變,中小型企業的運維實踐逐漸和 Google接軌。突然之間, Google多年打磨、積累形成的運維實踐變成了最熱門的行業焦點。對于一個面臨日益嚴峻的可靠性、可擴展性、可維護性挑戰的行業,這本書真是太及時了! ——David N. Blank-Edelman,總監,USENIX董事會成員,以及 SREcon 大會的共同創始人 自從我離開 Google這座充滿魔力的城堡,我就一直在等這本書面世,我一直在用書中的思想理念給同事們布道。 ——Bjo.. rn Rabenstein,SoundCloud 生產工程團隊負責人, Prometheus(開源項目)開發者,前 Google SRE(2013) Google是 SRE理念的發明者。本書不光介紹了這個職位的技術細節,還包括了其中的思考過程、團隊目標、設計理念以及學到的寶貴課程。如果你想從起源上了解 SRE一詞的意義,應該從本書開始。 ——Russ Allbery,Google SRE,安全工程師 本書的作者們和大家分享了 Google SRE團隊的成長經歷,包括其中走過的彎路。 Google憑借這些實踐經驗,將 Google服務部署到全世界,同時保持世界一流的可靠性。我高度建議任何一個想要創建、擴展大規模集成系統的人閱讀本書。這本書針對如何構造一個可長期維護的系統提供了非常寶貴的實踐經驗。 ——Rik Farrow,USENIX成員 開發一個 Gmail這樣的大型分布式系統已經很難了。如何運營維護這樣的一套系統,在保障每天不斷更新的同時保障一流的可靠性就更難了。這本書就像一套完備的菜譜,收集了 Google在實踐過程中積累的寶貴經驗。希望通過閱讀本書,讀者能夠繞開一些 Google曾經走過的彎路。 ——Urs Ho..lzle,Google 基礎架構組資深副總裁信息

SRE Google運維解密 作者簡介

Betsy Beyer 是Google 紐約負責SRE 的一名技術文檔作家。她之前曾為遍布全球的Google 數據中心與Mountain View 硬件運維團隊編寫文檔。在搬到紐約之前,Betsy 是Stanford 大學技術性寫作課程的講師。她曾經學習國際關系與英文文學,并在Stanford和Tulane 獲得學歷。 Chris Jones 是Google App Engine 的一名SRE。Google App Engine 是一個PaaS 服務,每天處理超過280 億個請求。他的辦公室在舊金山,他之前的工作包括Google 廣告統計、數據倉庫,以及用戶支持系統的維護。在之前,Chris 曾經在學校IT 行業任職,同時參與過競選數據分析,以及一些BSD 內核的修改。他有計算機工程、經濟學,以及技術政策學的學位。同時他也是一名有執照的職業工程師。 Jennifer Petoff 是Google SRE 團隊的一名項目經理,工作地點在都柏林,愛爾蘭。她曾經負責管理大型全球項目,包括:科學研究、工程、人力資源,以及廣告等。Jennifer在加入Google 之前,曾在化工行業任職八年。她獲得了Stanford 大學的化學博士與學士學位,同時她還擁有Rochester 大學的心理學學位。 Niall Murphy 是Google 愛爾蘭團隊廣告SRE 的負責人。他擁有20 年互聯網行業經驗,目前是INEX(愛爾蘭網絡互聯樞紐)的主席。他曾經寫作以及參與寫作很多科技文章與書籍,包括O’Reilly 出版的IPv6 Network Administration,以及很多RFC。他目前在參與書寫愛爾蘭互聯網發展史。他擁有計算機科學、數學,以及詩歌學的學歷(他當時一定是想錯了。。他目前與妻子和兩個兒子居住在都柏林。 譯者 孫宇聰,前Google SRE(2007-2015),山景城總部,曾參與構建運維Youtube 全球CDN網絡,2008年奧運會直播項目,構建維護海量視頻編碼傳輸系統。后參與Google內部云平臺運維工作,負責運維全球百萬級別服務器集群,以及Borg、Omega等大規模集群理系統。2015年加入Coding,任CTO一職;貒,積極推動國內容器化運維架構升級。目前是開放運維聯盟之應用運維規范制定組,高可用運維規范制定者。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 久久精品aⅴ无码中文字字幕不卡 | 欧美寡妇xxxx黑人猛交 | 午夜看片网| 国产sm重味一区二区三区 | 一级黄色a级片 | 男女肉粗暴进来动态图 | 亚洲av无码一区二区三区网址 | 亚洲一区二区三区四区 | 亚洲欧美日韩综合久久久久 | 日韩免费一级片 | 午夜国产福利视频 | 精品国产无限资源免费观看 | 国产一极内射視颍一 | 国内精品久久久久影院6 | 99久久国语露脸精品国产 | 一色屋色费精品视频在线观看 | 国产成人精品日本亚洲语音2 | 国产香蕉91tv永久在线 | 精品动漫久久一区二区 | 熟妇人妻无乱码中文字幕 | 国产理论视频在线观看 | 午夜性a一级毛片 | 色综合久久中文娱乐网 | 日本韩无专砖码高清 | 国产精品美女久久久久网 | 国产一区二区三区内射高清 | 亚洲国产成人精品小蝌蚪 | 亚洲第一在线综合网站 | 四虎国产在线 | 国产精品嫩草影院免费看 | 天堂网在线新版www 天堂网在线最新版www | 2hhhh在线视频免费观看 | 日韩福利 | 欧美性一区二区三区五区 | 日韩一区二区精品久久高清 | 午夜免费福利影院 | 欧美日本在线观看免费视频 | 国产丝袜精品丝袜一区二区三区 | 亚洲一区精品在线 | 三级做爰视频三级 | 浴室人妻的情欲hd三级 |