从hilinux.com架设谈网站或其他服务器运维

以下是个人观点,我说的只是我自己的想法,也是我发展的目标。你可以有异议,我们是来交流的。你对的我肯定会向你学习。因为我也在摸索。运维工程师至少要能做以下的工作
1、网络工程师的工作  你至少要能配置CISCO6509以下的设备,熟悉各种网络协议,否则网络出问题的时候你会傻掉。
2、系统工程师的工作  你至少要理解各种系统服务,在出问题的情况下要迅速解决问题,而不是等系统工程师来解决。
3、安全工程师的工作  我不要求你一定要会各种网络编程,但是在服务器收攻击的情况下,没有防火墙的情况下,做一些简单的处理工作。
4、存储工程师的工作  至少要熟悉各个厂商的设备,各种备份和还原的办法
5、测试工程师的工作  在新版本上线之前,你至少要协同测试工程师做测试工作,因为你是运维人员,不了解程序架构导致无法解决故障,你也有一份责任。
6、研发人员的工作    运维工具都需要自已开发,熟悉开发语言,需要有过实际开发经验,否则工作会非常痛苦,我深有体会。
7、英语          不想说了,我的{zd0}痛苦就在这里
8、好的沟通者      不出问题时候你可以打游戏睡觉,出问题的时候要能和项目人员沟通,快速解决问题,而不是推;我知道有很多人能推责任,你可以做替死鬼,但是离开这个工作你还能找到更好的;把责任推到别人身上的人,下次出问题的时候,{jd1}没人帮你。你要能和各个兄弟部门关系非常的密切,出了问题有兄弟帮你担责任;也要能非常扯皮,没事在会议上把别人都搞定。
9、库房管理员      数万台服务器让你来管理,任何丢失或者损坏都是不负责任和失职的表现。
10、运动员        不要回家就睡觉,有空还是运动下吧;在服务器down机的时候,机房恰巧就你一个人,机柜没有空间,你需要更换一台HP5854U的服务器,满配约80公斤的服务器,你怎么做?
11、责任心        这个我不想说什么,这是你的职业精神。
12、组织者        给你2个啥都不会的民工,再给你2000台服务器,要求你2天把服务器装完,你咋办?
13、1-7条中,你必须有一条非常精通,是这个行业的专家。否则过了32岁,没有公司要你。
大家看了肯定觉得这个人是神仙,但是这必须是你慢慢能做到的,至少是我6年来运营经验的一点总结。
因为现在的公司都在用招聘民工的钱招聘神仙,其次我也是想让各位看看,运维工程师要担负多少责任。
我去面试过的一些公司都说,你什么都会,什么都不精。我说对,正是需要我们这些什么都会的人领导什么都精的人。
我这句话没有贬低大牛的任何意思,只是当时一个临场的发挥。虽然说完就知道这个面试白来了,但是我还是想为广大的运维工程师出口气。
不怕千招会,就怕一招精。这仍旧是我给大家的建议。
风吹云动兄http://bbs.gehoo.cn/说的好,不要抱怨,每个行业都有自己的苦处,没有什么值得抱怨的,所以我删除了运维中的这一小节,重新发帖。
只是想让那些身居高岗的老大们看看我们的员工都是多么的辛苦。虽说抱怨的始终是做不好的,那么我只能用风吹云动兄的话说:“做啥都行,千万别做超人”,做超人要有超人的能力。能力有多大,责任就有多大。身在这个职位就要对这个职位负责。
一句话令我茅塞顿开…….不抱怨了~
一、架构设计
现在你要做的,就是设计你的服务器架构和网络架构。这要先看你的网站是做什么的,每日有多少的人数访问,
例如,我打算站点初期每日有20000左右的访问量,和1000人所有的并发量。我可以用我的人数并发量1000×站点中每个页面的平均大小200k×每个访问用户可能要打开4个网页=800000k=800M的网络流量(当然这个数字肯定是非常的过分,至于为啥,自己可以想下)
然后可以用测试环境用软件检测在你的真实环境下的服务器压力,比如在2000人在线的情况下,服务器的cpu占用多少,内存占用多少。
那么你可以得到你大致配置,其实市面上的标准服务器配置都足够你用了,比如现在的DELL1950,HPDL360G5,IBMX???(忘记了)
等服务器,足够我跑一个这样简单的网站。其实说白了,双奔3都够,真的。当然你网站的流量比我要大的多,那你可以买的更好一点的服务器。或者负载均衡器。
服务器交换机等设备选型和购买
说的简单点就是买什么机器,你可以和google一样开始,买几台pc作为你的网站服务器,也可以自己组装一台服务器
或者也可以和我一样,去挑选品牌服务器当然,现在你要看你服务器做什么的,
你可以亲自去电脑城看组装服务器,也可以打电话到IBM,HP,DELL的各地销售商让他们送服务器来测试,
当然你不要告诉他们你只买一台,那你就别指望测试了。我告诉供货商hilinux.com需要200台服务器,一个F5,10台CISCO2960交换机,3个NETSREEN206防火墙,一个EMCCX500+满硬盘
那么不到3天,hilinux.com所需要的4台测试服务器,就送来了。。。当然,不要牛了这么多{zh1}只买1台,那么你晚上走夜路会被人打的。
{zh1}就是价钱问题了,这个你自己看着办吧。让你公司的财务或者采购出马砍价付钱就是了。当然,除了服务器的服务,你{zh0}还是想想有利于自己的服务,比如人家公司可以帮你拆箱子了什么的。我做的最弱智的一件事情就是,来了400台服务器,50个交换机,8台EMC,我一个人花了一星期把箱子才全部拆完。。。
二、IDC选择
首先要看你服务的地区是哪里,然后再去找当地的电信机房。毕竟,虽说全国已经互联了,但是各地的网速还是有差异的。
或者说有的idc机房利用率高,虽然出口带宽大,但是利用率高的结果是导致你网速慢的原因之一。
我的做法是在全国各个机房的服务器用pingplus这个软件进行一周的的流量测试。可以看到平均丢包,{zd0}延时等等。
当然,你也可以到你目标服务的地方,找个可以上网的地方进行网络测试,比如说网吧包个机器。。。
然后你就可以电话或者自己提着礼品登门拜访一下IDC服务商的老大了
当然,你也可以找代理服务商,因为他们拿到的价钱有时候比电信或者网通给你的价钱低,但是,关键还是一个服务,因为你毕竟服务器放在那,晚上关键着急没人给你重启,机器出了问题其实按个F1就可以解决的问题,服务商的值班人员不懂。你就只能打晚上的打飞机去机房维护吧。
提着东西拜访一下服务商老大是礼节性的东西,东西不在多而在精,这样你未来谈事情人家也给你绿色通道,做事情要好做很多。当然,我也不反对你空手去,你一次租个100个机柜+10G带宽,人家还是很优惠的。哈哈。大家都是混口饭吃,也不至于难为你什么。
{zh1}你要知道现在的中国还是卖方市场,你给人家牛,那你买的产品只能是。。。蒙牛
然后是开始去参观机房
细心的检查一下空调数量,空调出厂和{zh1}维护日期,网络布线类型和架构,是否可扩展,主备从电力等。
基本都是非常关键的东西,出问题了,人家可以给你更换一个新的,服务很好,但是你服务器挂{yt}的损失是多少,你可以自己掂量。
还有机柜电力,现在的机柜放置16台1U的服务器是正好,多了过于热,少了资源浪费;但是你发现人家只让你用10安培电力,过了要交钱买电;
或者不限制你用电,但是插线板只有10个,你还真买个托线板去转接?你要想想你一个托线板挂了,你服务器要挂几个?
三、服务器上架
好了,要是你买的服务器到了,你会发现你接到电话后,楼下一个N大的“擎天柱”集装箱车给你送服务器来。。。(某次我收2000台服务器就是这样的阵势);在这里有个重大的提示,你们财务给厂商下单的时候,收货地址一定要写对。比如XX路XX号XX大厦XX楼XX室,你写到xx号,送快递的会给你堆到院子里,你写到xx楼,送快递的会给你送到电梯口,你写到xx室,他们才会给你搬到室内。因为送货的都是服务器厂商找的,你因为这个事情去联系厂商修改送货地址,至少要多等N小时。而且他们视你的单子的数量和楼层,判断来多少搬运人员。而且,一定要把服务器搬到你指定的地方再签字收货,否则…嘿嘿…
我最霉气的是:来了20台机器(还好不多),下着大雨人家给我往院子里一丢,让我自己搬上19楼,我没推车没啥的…
你可以说,找电信的帮忙撒,废话,这个我还不知道。那我告诉你,我在某电信大楼工作时,从CCIE到机房主管到机房工作人员,全部是美女…
虽然我在这个地方只干了5天活,我的同事们口水都有3尺长…你还叫人家给你搬机器不?
你可以说,顾民工撒,我又不是没顾过,钱得你自己支付,公司不给你报销的话,爽不?
下面是拆箱子,面对着堆积如山的2000台服务器,我是连抬手的力气都拿不出来。。。当时机房只有我们公司3个人+电信值班2个人。。。
这时候,我的办法是。。。我打电话找来了2队收废品的:
这么多箱子,除了机器和电源线留下,里头的导轨光盘等等你全部拿走,谁拆的多谁拿的多。。。
{zh1}按照我的要求帮忙搬到机柜上。。。于是我们5个人是监工。。。看人家拆箱子搬机器。
于是人家2队人找来了30多号人,一早上把2000台机器全部拆箱子完毕放到机柜上。
要是我们几个人拆,估计……
好了,面对几千台服务器开始装系统,我不知道你会怎么想。。。
全部是1U服务器有什么办法安装系统?(我们公司穷,买不起刀片;而且电信不配合,要是上刀片,电路你们自己拉线,价钱还是原来的价钱;最重要的…我们公司以人为本,宁愿多养个人也不愿意买个好服务器让人失业),而且不允许GHOST,因为你这是服务器,不是网吧…GHOST出来的系统,我不知道谁用过,爽不。我自己是郁闷郁闷到了,莫名问题的时候,你就知道GHOST还是靠不住的。
其次,我们公司安全部要求:必须得一台一台安装,先安装光板的系统(比如没有SP的WIn2000),然后手工打SP4补丁,不能网络打补丁。于是我们就光盘堆成山。最扯淡的,为了快,我做了一个补丁共享的服务器,所有的补丁CP的本地来打。结果忘记拔网线,导致人家说我们是插了网线打补丁,有中毒的危险,需要重装。我直接崩溃。。。
办法1,你可以1台1台慢慢装,反正这么多机器,你可以管公司要更多的时间。但是我们公司一般是机器到了,最多2-3天就要要,一向是那种计划不如变化快的没有计划没有进度管理的“小”公司,项目组拿着鸡毛当令箭,牛x哄哄的公司。郁闷!
这个时候前期的准备就比较重要了(我公司多用windows2003),因为首先我要装一个光系统,再打驱动,再打补丁,再安装远程控制软件。一台机器装完大约要1小时多点。那么机器多了怎么办?光盘不够怎么办?等等问题就来了。
我的办法是,我一看TMD全部是DVD,IBM的机器直接佩combo,公司给我们发的全部是CD,娘的,典型的没有最慢只有更慢,除了问题闲你慢的领导班子。于是只好自己出钱买了DVD,用软件把RAID,网卡,显卡其他驱动做到光盘里,需要安装的软件也直接做成自动安装的方式,补丁也刻录到光盘里(我们要求补丁必须单打,不能安装集成补丁的ISO,shit),这样弄,你只用把光盘往光驱里一丢,分区一分,就可以下一台机器了。然后等你在去关注这个机器的时候,已经可以设置IP插网线了。灵感来自番茄花园。吼吼。
当然这时候你{zh0}是买个KVM,16口的KVM,一次准备16张光盘就可以用一套键盘鼠标操作16台机器。当然啦,KVM是可以级联的,我xx一次一次一套键盘安装166台机器。郁闷的是,塞光盘塞死,插KVM线插死,配置IP配死,有时候还会弄错。。。
五、资产统计
假如你的机器只有2000台反而好容易管理了,但是现在我要管理的全国IDC有31个,平均每个机房有不同品牌服务器1500台。
一共大约有45000台的样子(我的资产管理系统里的数字,不包含交换机,防火墙等)
这时候怎么办?
每季度和财务小MM一起出去旅游盘点IDC资产,幸福啊…(我们财务小mm很PL的哦)
到了机房就是我一个人干活点资产,小mm带着大口罩,披着双层的放辐射服…
可怜我们这些干活的,短裤背心,IDC里一呆就是好几个月(IDC办公室就在机房边上…),不知道精子被辐射杀死多少…
1、必须有资产管理系统,虽然这个其实是个很简单的数据库,但是你可以把每一台机器的品牌,硬件信息,操作系统信息,购买年限,质保年限等,你非常关注的东西做一个详细记录,并配发同一的资产编号。
比如我们的资产号,FWQ-123456
服务器-123456,这是一个总的资产号,这个服务器哪怕搬到美国,也是这1个资产,直到丢失,或者抛弃,都是这一个资产,永远不会变。
比如我现在的板凳就是一个资产号是:服务器-000010的一个4U服务器,配置是P2300*2  256M内存16G硬盘×4
购买时间是1999年10月,从中维修过1次,升级过1次,在哈尔滨机房-广州机房-河南机房-北京网通机房-上海公司内部测试机房-上海库房服役过。
有历史吧….
2、看过我这个服务器去过的地方,羡慕不?见证我们公司的发展史。9年过去了,终于成了我的板凳…
服务器在购买合同确定以后,就应该按照配置记录资产,并且在财务备案,资产编号一定和财务记录相同。这样这个服务器走到哪里,都有备案和记录。现在要把这个服务器送到某个机房去,搬着走吧…汗
送到机房,我们要给服务器按照财务给的表格粘贴资产编号,选个顺眼的地方,不会磨损的地方。
一般是机器正面某个地方,然后是机器屁股后面某个地方,然后机器侧面把手的地方,粘贴3个,以防掉了就烦了。
然后在粘贴这个机器的应用资产号和IP标签:
应用资产号举例:FWQ-SH-XX-B31-WEBSERVER  意思是:服务器-上海-xx机房-B列31号机柜-web服务器
IP标签举例:外123.234.123.234内10.0.0.1。这2个标签你可以分开也可以在一张标签上写清楚。
5、还是IDC的工作。
话题继续回到我和财务小mm去盘点(你公司比较大的话,你可以多派几个人分开去各个地方…)
小mm一看我们机房服务器黑压压的一片,铺天盖地的,直接无语。为啥,因为要拿着资产表一个一个核对,面对几千个机器,直接晕倒。
虽然按照资产管理系统里导出的信息,机柜号,IP号,机器从上到下的顺序都非常xx,但是你一个一个核对,还是慢。
怎么办?
库房管理的工作用上了,哈哈。你买服务器或者买笔记本电脑的时候有没有注意到箱子上的条码?
那个条码非常清楚的记录了这个机器的详细信息。所以黑莓手机或者NOKIA手机(别的我没用过)都有扫描条码的功能…好像与主题无关…
打印出来贴上去。然后买个扫描枪,和超市那种一样,不过你要买有存储功能的,否则你要端着笔记本去扫描,SB了。
然后我和财务mm本来需要一个人念号码一个人核对(你要直到在机房里大喊资产号,喊{yt}的结果是啥,自己想),现在一个人拿一个扫描枪,按照规则一个一个扫描。完成后把数据导出后重新整理分析。直接和数据库核对(当然这个也需要你自己开发),核对完成生成一张表。
表上写的非常清楚你哪个机架没有哪个机器,哪个机器不在特定的位置上,哪个机器缺少……….等等
这样比如说,机器位置不对扣5块钱工资,机器IP不对扣2块钱工资,或者…反正扣到{zh1}…这月不给发工资了,还得倒贴点…哈哈哈
未完待续
(最近比较忙(半个月不到,全国跑了一半,TMD),一直没来得及维护这里,请大家见谅。IDC方面告一段落,有问题可以在后面回帖问你想问的,不涉及公司隐私的我会写在这里和大家共享。下面我会筹划写系统运维方面的经验。大家也可以把想知道的回帖在后面,我回尽力帮大家解决(veyron大侠的文章看完就知道他是老大级别的,我是民工级别的,自嘲一下,希望veyron大侠的架构经验和我的不值一提的实地经验能给大家带来提高和学习的乐趣))
能想到的会继续写。
六、监控架构
监控架构其实每个地方都有自己的做法,我也知道我的办法不是很先进,但是仍然拿出来和大家一起讨论
首先谈谈监控软件,一说起这个常用的东西MRTG,cacti一类的就都可以用了。只要稍微归类一下,流量展示看的还是很清楚的。
要是要监控服务一类的,那就只好启用大名鼎鼎的nagios,和一些牛x人基于这个做的一些别的商业软件。
或者就是自己做个脚本去定时探一下,不通了给你发邮件了啥的,你vim一下nagios的chack_xxx ,学习一下里头人家探测的办法,自己也能搞出来个啥东西,都还是很不错的了。
当然了,有些公司是有网络监控部门的。但是我就一直在想这个问题,所有的数值都可以用短信报警,你随时都可以收到信息。用这个部门干啥,让一群可怜的家伙 8小时一动不动盯着屏幕,公司又在他们电脑上安装了抓屏软件,上班事件聊天上网就扣钱…我估计他们每天最期望的事情也莫过于服务器挂了,可以给我们打个电话重启个服务器或者连到服务器上检查一下啥问题,重启个服务了啥的。当然了,这些兄弟{zh1}的职业方向也只能是进入运维部门了,至少公司服务器down 机维护的流程性东西掌握的非常熟练了。但是这是用好几年时间换来的经验,太…所以我是奉劝兄弟们有发现监控部门招聘人,就别去了吧。面前8台显示器,猛一看还以为是黑客帝国呐,结果仔细一看全tmd是流量图。常年对着8个显示器,那个辐射…
我就不清楚设置个节点,出现问题告诉人,人去操作会死啊,非要让人和机器一样一动不动的盯着显示器,TMD,官僚。虽然我没经历过,但是想也能想到。做SA,{zd0}的要点是懒,把一些需要人做的事情都自动化…但是话说回来,我公司以人为本,人海战术嘛,可以理解。
1、自动化,流程化你的信息管理
(刚被一起2年的mm一脚踹了的郁闷中恢复过来,继续写)
为什么要自动化,这年头流行办公自动化,你丫没事还拿着工单四处签字,老土了吧。
为什么要流程化,这念头流行流程管理,假如你公司没有一个固定的流程管理,出了事情,大家都不知道怎么做,各个部门的电话乱打,大家都一锅粥没有效率。所以,未雨绸缪,在没有出问题的时候,模拟出问题,多多准备,建立规范的流程,公司的每个人都要遵守,这样,流程化的管理+办公自动化,大家只用在电脑上翘翘键盘,点击确定,流程就发出去,一路审批,OK,流程发送到做事的人地方,也许这个做事的人在美国,也一样方便。
这里说的是:如何去上架,维修,下架等流程控制
先说上架下架:服务器到机房以后,别人要用服务器怎么办?先可以到你的资产管理系统里,看你机房还有什么配置的机器多少台,然后让他们选择自己项目服务器的配置,数量。在流程管理系统中,把这些机器选中,生成一个表单,表单名字为xx项目上架需求,写清楚谁用,做什么,数量,哪个机房等。然后提交给他们部门领导,他们部门领导同意后,转给需要审批的领导,一层层下来,流转到我们部门领导,我们部门领导流转给部门机房员工,员工收到流程,检查上架下架服务器;如要上架,安装完系统后填写IP,机器名,机架等相关信息。如要下架,删除相关信息,提交给流程控制的人员,流程控制人员确认后,这个流程完成。届时,所有的人审批过的数据,经手人,数据库里都有,出现什么问题找相关责任人,一下就找到了,省的和某些XX部门JJYY。
维修也一样了,机器坏了,或者需要重装系统,按照上面的流程,一步步走一遍,就可以了。年底统计机房{yt}要干多少活,省的某些领导认为机房人TMD都在闲着。机房的人呢?没有流程不干活,否则白干。
至于的加内存的时候注意型号啥的问题就不说了,大家应该都没问题了
要说的是,假如你一个机柜上放的机器比较多,比如4个6个机器一摞,恰巧坏了,恰巧一个人在机房,非得解决,怎么办?
简单,一个办法,但是还是需要你有力气,虽然有力学原理
比如有4台服务器,最下面的坏了,
你可以拽住最下面的把4台一起往出拉,拉出来一点,把上面3台往后推,这样一点一点的拉出来,
下面最关键:
拉到{zh1},前面要留出来一点,轻轻的把上面3台的尾巴着地,然后一只手抬住上面3台机器,一只手拉出下面一台机器。
上面3台一定要留出来一点,否则放下的时候,机器和机柜托板会压住你的手,你一松手,机器震一下,硬盘就挂了。。。
所以在推进去的{zh1}仍旧要留一点在外面,{zh1}放下来了再推进去这{zh1}一点。
然后就可以换或者加内存了。相对比较省劲,不危险,不会压倒自己,不会砸坏服务器的办法就是这样了。




郑重声明:资讯 【从hilinux.com架设谈网站或其他服务器运维】由 发布,版权归原作者及其所在单位,其原创性以及文中陈述文字和内容未经(企业库qiyeku.com)证实,请读者仅作参考,并请自行核实相关内容。若本文有侵犯到您的版权, 请你提供相关证明及申请并与我们联系(qiyeku # qq.com)或【在线投诉】,我们审核后将会尽快处理。
—— 相关资讯 ——