Ceph技术风暴来袭,大咖齐聚玲珑塔

本文转载自Ceph中国社区订阅号,可点击阅读

2015年12月20日,Ceph风暴继续席卷中国,Ceph爱好者们聚首鸟巢,来共同见证Ceph中国社区北京站的岁末大咖秀,虽然霾锁京城,但玲珑塔却热度爆表,来自互联网、云服务提供商的精兵强将纷纷加盟本次线下活动,为了弥补上次沙龙的遗憾,特意将沙龙场地选在了北京鸟巢玲珑塔,为了推动Ceph在中国的发展,Ceph社区这次在2015年的年末准备了两场重量级的沙龙活动,分别是本次12.20北京站和12.26上海站,这里预祝Ceph在中国发展的越来越好。

本次活动由北京中云融信科技有限公司提供场地赞助,战略合作伙伴机械工业出版社华章分社、云梦园社区提供活动礼品赞助,战略合作伙伴云端数据现场直播。在全体Ceph中国社区小伙伴的齐心协力下,最终促成了本次沙龙的圆满举行。

13:40 会议召开,会议主持人——北京中云融信科技有限公司CEO徐世晓宣布沙龙开始,主持人首先简单介绍了Ceph中国社区的发展情况,之后由社区发起人上台亮相并介绍了Ceph中国社区的发展历史,强调社区成立的宗旨:无任何背景,非盈利、公平公正公开,欢迎所有个人用户、企业加入,接着逐一介绍本次沙龙的分享嘉宾:


(很遗憾由于本次时间和地域原因部分发起人未能到场)

乐视云计算云存储技术经理吴兴义

H3C PDT经理温涛

网易游戏陈文钦

休伦科技研发工程师郑伟

富通东方存储研发&Ceph中国社区联合创始人王海亮、富通东方存储研发刘鹏


13:50 第一位分享嘉宾乐视云计算云存储技术经理吴兴义
吴兴义分享的主题是“乐视云的Ceph实践”,首先讲述了乐视云存储的基本概况,当前乐视主要使用了Ceph的RBD块存储和RADOSGW 对象存储,当前乐视的Ceph 集群容量规模已经接近10TB,其中RBD块存储也是采用当前主流的OpenStack+RBD来作为后端来使用的;而RGW主要作为CDN的源站,存储图片、音视频等,还分享了一些乐视在针对于Ceph在小文件场景调优的一些参数,以及乐视自研发的WatchTV监控软件来监控Ceph,和自己的踩坑经验分享。


14:35 第二位分享嘉宾是H3C PDT 经理温涛
温涛分享的主题是“Ceph产品化实践”以及他的同事分享的“Ceph性能调优实践”,首先讲述了H3C的Ceph产品化实践之路主要分为以下几个方面:
1.产品化对存储的关注点:易用性、可靠性、可用性、可维护性、成本等几个方面来阐述用户对硬件产品的需求
2.H3C对Ceph的产品化工作,其中讲述了市场趋势、为什么选用Ceph、以及遇到的一些踩坑分享。
3.H3C对开源产品的思路以及未来展望,总结一句话就是:取之于Ceph,贡献于Ceph
然后由H3C杨瑞峰分享的Ceph性能调优实践,分别从以下几个方面做出来鲜明的效果对比,现场人员看到这里很沸腾,因为调优是Ceph的一个大难题。
1.调优前根据业务类型进行分析,本次分享主要针对于4K随机写
2.硬件的配置以及测试组网,硬件采用的是 2 * Intel(R) Xeon(R) CPU E5-2620、48G内存、1*HDD(system disk)、6*HDD( SAS data disk)、1* SSD(journal)
3.软件的配置以及测试工具,软件采用的是 OS:ubuntu14.03 Kernel:3.19.0-32 、fio+librbd方式,在单节点进行压力测试使用vmstat、iostat等监控
4.优化点,主要是CPU&内存、文件系统、Ceph优化方面:LOG、MSG、ShardedOpWQ、WBThrottle、阈值、杂项等
5.优化结果对比,优化前和优化后性能几乎翻了两倍多


沙龙进行到这里,都对此分享啧啧称赞,大家气氛很高涨,都对Ceph的优化很感兴趣

15:15 第三位分享嘉宾是网易游戏的陈文钦
陈文钦分享的主题是“网易游戏私有云实践”,主要呢分为以下几个方面:
1.网易游戏目前Ceph集群状况
目前集群规模以及达到1.4PB,其中网易游戏从03年上线的0.72版本,以及前段时间发布的0.94版本
2.集群选型及架构规划
架构经历了两个阶段,最初选用的是刀片型服务器,为了避免内存等资源的浪费,在存储节点上也开始跑VM虚拟机,后期因为遇到硬件故障,随着集群越来越大,问题凸显严重,重新规划架构,采用计算和存储进行分离,计算节点是高密度计算型的刀片式服务器,存储节点是高密度存储型机架式服务器。
3.性能测试以及故障测试
测试规模分为两个集群,分别是不同的机架和机器数量。
大集群采用20xR730(双机柜)、SASx18 SSDx6
小集群采用3xR730(单机柜)、SASx16 SSDx8
Ceph版本以及测试工具和配置优化都是相同的效果,其中模拟了叠线故障、交换机故障时的性能,以及调整Tcmalloc的数量
4.故障维护及数据抢救
采用xfsdump–>xfsrestore方式更换OSD磁盘,这种恢复方式要比Ceph本身恢复快,但是适用于故障盘数据可读的情况等等一些问题。

16:40 第四位分享嘉宾是休伦科技的郑伟
郑伟分享的主题是“用SaltStack如何对Ceph自动化部署和Ceph的运维实践”,主要讲述了休伦科技从14年初的时候开始实际Ceph的自动化部署并且把Ceph加入到其为客户部署的私有云平台中,随即5月份发布了1.0版本,8月份的时候平台迁移Ubuntu–>CentOS。其中介绍到最初自动化软件的选型调研以及版本重构,踩坑以及Ceph的故障与运维,例如Mon节点失效过多、集群使用量大于95%!!!、添加临时OSD应急等,很精彩的踩坑经验,在场工程师也都很感兴趣,认为本次干货多多。


17:16 第五位和第六位嘉宾是富通东方存储研发&Ceph中国社区联合创始人王海亮、富通东方存储研发刘鹏
他们分享的主题是“富通东方基于Calamari和Ansible的Ceph管理平台实现”,王海亮首先讲述的是自动化部署Ceph实践,他们采用的是Cobbler、Ansible、Calamari 其中Cobbler用于一键部署主机,完全自动化,提供API接口以及Web UI;Ansible则作为自动化部署工具,其次介绍到他们的一键部署Ceph的架构,同时整合了Cobbler、Ansible、Calamari提供REST API和Web 管理平台。
刘鹏讲述的是Calamari底层的代码流程分析,主要从以下两个方面来分析:
1.Calamari基本架构
2.代码目录详解
全面分析了Calamari


18:30合影留念

Leave a Comment

电子邮件地址不会被公开。