Sitemap.xml是google搞出来的,也就是网站地图,不过这个网站地图是用xml写的,而且要按google的标准来写,并且要将写出来的这个文件sitemap.xml上传到自己的服务器空间中去。目前,Google, Yahoo, MSN都已经声明支持这种格式,Baidu还没有声明支持,但估计走这一步也是大势所趋。这将是向众多搜索引擎提供你网站信息的一种很好的方法。
提交sitemap一是有利于搜索抓取一些正常抓取过程中无法抓取的网址,比如动态网页,包含大量AJAX的网页或者flash的页面。二是为搜索蜘蛛指明“工作方向”。Sitemap就是你网站上页面的列表,googlebot就按照这个去一个个的抓取收录页面,显然比它自己去找会效率高,而且要全。Google网站上有完整的关于sitemap.xml的详细说明:
http://www.google.com/support/webmasters/bin/answer.py?answer=40318&hl=zh_CN
但很多站长看后仍然不会操作,下面这个教程就是手把手教会你创建Sitemap.xml。
1. Sitemap.XML 的格式
完整格式如下:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84" >
<url>
<loc>http://www.yrtrip.com/default.asp</loc>
<lastmod>2008-07-17</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc> http://www.yrtrip.com/search2.asp?id=32003044&sq=1</loc>
<lastmod>2008-07-17</lastmod>
<changefreq>weekly</changefreq>
<priority>0.9</priority>
</url>
…
…
</urlset>
下面,对以上标签分别加以解释
a) <?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84" >
这两行就相当于网页文件中的<html>标签一样的作用。不必管这两行什么意思,照抄即可。
切记:一个字符也不能错,即使多一个空格,google网站采集时也会报错。另外,千万别忘了在文件的末尾加上</urlset>标签。
b) url:每个标签包含一个网页地址,是以下标签的父标签。
c) http://www.yrtrip.com/default.asp
这里是页面链接地址,也就是你希望蜘蛛访问的地址。
切记:在地址中出现的某些特殊字符需要使用转义字符,否则,google也会报错。最典型的就是 & 号,经常在动态网址中出现,在提交地址中必须写成 & 如:提交http://www.yrtrip.com/search2.asp?id=32003044&sq=1,google管理员工具就会报错,而改为 http://www.yrtrip.com/search2.asp?id=32003044&sq=1提交后就没有问题了。我看到网上有人说sitemap.xml只能提交一个参数的网页的说法,其实成都网络营销多半是因为没有使用转义字符而导致出错的。其他的转义字符就不一一列出了,大家可以在网上查。
d) lastmod:页面{zh1}修改时间
这个很重要。Google的机器人会在索引此链接前先和上次索引记录的{zh1}更新时间进行 比较,如果时间一样就会跳过不再索引。所以如果你的链接内容基于上次Google索引时的内容有所改变,应该更新该时间,让Google下次索引时会重新 对该链接内容进行分析和提取关键字。这里必须用ISO 8601中指定的时间格式进行描述,格式化的时间格式如下:
年:YYYY(2008)
年和月:YYYY-MM(2008-06)
年月日:YYYY-MM-DD(2008-06-04)
年月日小时分钟:YYYY-MM-DDThh:mmTZD(2008-06-04T10:37+08:00)
年月日小时分钟秒:YYYY-MM-DDThh:mmTZD(2008-06-04T10:37:30+08:00)
这里需注意的是TZD,TZD指定就是本地时间区域标记,像中国就是+08:00了
切记:其他格式可能引起出错,比如将2008-08-08 写成2008-8-8就会出问题。
e) changefreq:页面内容更新频率。
这里可以用来描述的单词共这几个:"always", "hourly", "daily", "weekly", "monthly", "yearly",具体含义我就不用解释了吧,光看单词的意思就明白了。
f) priority:相对于其他页面的优先权
定于0.0 - 1.0之间 。
切记:建议将各类网页根据重要性给出不同的数值,以方便蜘蛛的采集,不要耍小聪明全部写1.0,google管理工具会报错的。
2. Sitemap.xml制作方式
制作方式无非两种,自动方式和手动方式。
自动方式一般使用生成工具自动生成,只需输入自己的网址,就可以得到完整的xml文件。这种方式一般适用于静态网站,在此不再赘述。但需要提醒的是,网上的工具良莠不齐,生成的文件经常有错误,不一定能通过google的校验,使用者需认真辨别。
手工方式则是由站长手工填写或写程序完成均可,代码很简单,大家可以到网上查找。
3. 提交
Sitemap.xml制作完成后,就需要将xml文件提交到相关搜索引擎。
Google提交网址:http://www.google.com/webmasters/sitemaps/?hl=zh-CN
Yahoo提交网址:http://sitemap.cn.yahoo.com/
提交后,一般在几个小时之内,系统就开始下载处理了。
4. Sitemap.xml的校验
至于你的网站地图是否符合标准,最方便的手段就是使用google的管理员工具了。
在他下载你的sitemap.xml后几天内,这个工具就会将详细的分析结果反馈回来,包括:sitemap.xml中包含了多少地址,google已将多少地址加入索引,sitemap.xml中出现了哪些错误,甚至蜘蛛采集过程中遇到的各种问题,比如哪些网页有404,500错误都会详细的罗列出来,非常方便。
如果你提交的xml文件一切无误,那么接下来,你就是等着让它的搜索蜘蛛来爬了,sitemap的文件告知了文件更新的频率,这样搜索蜘蛛来得更勤快,页面被收录当然也就更快。
1、除非你确认自己掌握了,否则不要去试WIN2003的防火墙
WIN2003防火墙打开后,默认是禁止3389端口的,很多站长在启用了防火墙后一重启服务器就再连不上3389了。所以除非你确认自己知道这个防火墙的使用,否则就不要去碰它。
还有的朋友是改了端口却忘记了在防火墙里开放新的端口。有的朋友则人根本不会改端口,直接在服务器上试的,结果没改成功,重启就进不去了。
遇到这种情况,必须告诉机房维护人员您的服务器密码,让他们帮你停止防火墙。
2、千万小心,不要禁用了网卡
很多人在自己的电脑上就喜欢劈劈xx点鼠标,在服务器上可要小心,本地连接上右键一下,然后左键一下,很可能就点了禁用了。结果可想而知。
遇到这种情况和上面一样,要告诉维护人员你的服务器密码才行。
3、别忘记了更改超管密码
一般IDC给用户的服务器装完了系统都有个默认的密码的,不修改的话很容易被黑。
4、请注意当你要求机房维护人员为你重启服务器时,那将是一次非正常关机。
如果你确认你的服务器还没有xx死机,并且不希望非正常关机,那么可以由机房维护人员插上显示器键盘等帮你从系统里重启,但是前提还是你要告诉维护人员服务器密码。
5、不要在服务器上浏览网页或者运行没有用过的程序
或者说不要给服务器太多不安全的因素。如果没有安装补丁或者杀毒软件,在服务器上浏览网页将可能使服务器感染木马或者病毒。在服务器上运行没有用过的程序也有同样的危险,或者有可能导致服务器上的默认设置被改变。
6、尽量不要一边看教程一边在服务器上设置
就算教程是{zx1}的最完整的,我们{dy}次操作的时候仍然可能出现问题,而因为是{dy}次,很难记清自己操作的全部过程,{zh1}可能导致连有经验的人过来也无法xx设置好你的服务器了。
{zh0}先在自己的电脑上演练一遍,确认没有问题了再在服务器上测试。
7、有了服务器,就要学着去使用它。
使用服务器,这看似很简单的事情,其实是一门很大的学问,没有哪个高手可以说他可以解决服务器里的所有的问题,更没有谁敢说他的服务器不会被黑。
所以不要总是抱怨别人不能帮你解决问题,如果你在租用或者购买服务器之前对服务器内部的设置一无所知,那么千万不要把维护服务器的希望寄托在临时找人帮忙上,要么就找个能长期帮自己的人,要么就干脆聘技术员,{zh0}还是自己尽快学起来,因为没有谁会比你自己更了解你的服务器了。
8、一定不要忘记了做备份
虽然大多数时候备份是用不上的,但是一旦用上的时候没有备份那就是天大的灾难。在使用服务器的初期,误操作导致数据丢失的可能性很大,病毒和黑客入侵也会使你的网站数据毁于一旦,并且不要忘记了服务器最容易损坏的硬件就是硬盘。