读书笔记-构建高性能Web站点
基本概念
- 带宽:通常说的带宽比如8M带宽,是指主机与互联网运营商的交换机之间的数据传输速度,因为数据链路层的流量是通过控制接收方实现的。而百兆网卡则是指网卡的发送速度为100Mbit/s,则是指网卡发送数据的速度
- 吞吐率:单位是reqs/s,指服务器的并发能力,就是单位时间内服务器处理的请求数.最大吞吐率是指单位时间内服务器能够处理的最大请求数.通常使用压力测试的方法通过模拟足够数目的并发用户数,分别连续发送一定的Http请求,并统计测试持续的总时间,计算出基于这种压力下的吞吐率,即为一个平均计算值.注意在压力测试中提到的每个用户连续发送请求是指在发送一个请求并接收到相应数据后再发送下一个请求.所以1个用户连续向服务器发送1000个请求与100个用户连续向服务器发送10个请求给服务器造成的压力是不一样的,后者造成的压力更大,因为同一时刻网卡接收缓存区排队的请求更多.
- 吞吐率要在一个前提下得出,那就是压力和请求资源的性质,压力一般包含两部分,即并发用户数和总请求数,也就是模拟多个用户同时向服务器发送多少个请求.请求资源性质则是请求的Url所代表的资源的描述,比如1kb的静态文件或者包含19次数据库查询的动态内容.所以吞吐率的前提包括:
- 并发用户数:某一时刻同时向服务器发送请求的用户数目
- 服务器最多支持多少并发用户数,即最大并发用户数也是有一定前提的,即满足服务器和和用户所期待的最大收益,失去前提那么最大并发数会更大,但用户体验会很糟,比如等待时间过长,服务器吞吐率会变的很低
- 一个用户可能会给服务器带来两个或者更多的并发用户数压力
- 总请求数
- 请求资源描述
- 并发用户数:某一时刻同时向服务器发送请求的用户数目
- 长连接:本身是Tcp通信的一种普通方式,即在一次Tcp连接中持续发送多分数据而不断开连接.与之对应的是短连接,也就是建立连接后发送一份数据便断开,然后再次建立连接发送下一份数据,周而复始.Http长连接需要浏览器和服务器共同协作,一方面浏览器需要保持一个Tcp连接并重复利用,另一方面服务器不能过早的主动关闭连接.目前浏览器都支持长连接,表现在发出的Http请求数据头中包含长连接的声明:Connection:Keep-Alive.对于长连接的有效使用,关键的一点在于长连接超时设置,即什么时候关闭长连接,这个设置同时出现在浏览器和web服务器上,因为双方都可以主动关闭连接.如IE7 默认的超时时间是1分钟,Web服务器则会在配置文件中提供超时设置。浏览器与服务器超时设置不一致时以最短的超时时间为准
缓存
- 缓存机制包括整页缓存,局部缓存,数据缓存,代码解释器缓存以及web服务器缓存等
- 对于动态网页,页面缓存的内容实际上就是动态网页输出的HTML。一个动态网页根据url参数的不同会生成不同结果,对于每种结果都必须生成对应的缓存文件.缓存文件文件必须标记过期时间,动态页面每次都要对缓存进行过期检查.过期检查一般有两种方法:
- 根据缓存文件的创建时间和缓存的有效期长度,计算当前时间缓存文件是否过期
- 根据缓存文件的过期时间判断当前时间缓存文件是否过期
- 缓存文件除了放在磁盘中,还可以放到内存中(memcached),也可以放在独立的缓存服务器中,利用memcached可以很容易将缓存存到其他服务器
- 缓存有效期是一个需要斟酌的值,有效期过大可以提高缓存命中率,但动态网页的内容得不到及时更新,有效期过小则需要频繁创建缓存。除了不断调整缓存有效期之外,缓存机制还提供了一个有效的缓存控制途径,可以在任何时候强制清空所有缓存
- 静态化内容的更新策略包含如下两种,它们可以互相弥补,共同应用在站点的静态化方案中
- 在数据更新时重新生成静态化内容
- 定时重新生成静态化内容
- 尽可能让web站点的内容缓存在用户浏览器中,这样可以一定程度减少浏览器的计算开销。浏览器一般会在用户的文件系统中创建一个目录,用于存放缓存文件,并给每个缓存文件打上一些必要的标记,比如过期时间
- 缓存协商的过程: 首先浏览器向web服务器请求内容时,web服务器会告诉浏览器哪些内容可以被缓存,浏览器对这些内容进行缓存后,当再次向服务器请求这些内容时,就会询问服务器是否可以使用本地的缓存,服务器收到询问就会做出回应,到底是允许浏览器使用本地缓存还是将最新的内容传回浏览器
- 协商方法有两种:
- Last-Modified:动态程序可以在返回给浏览器的Http响应头添加最后修改时间,这个时间是GMT时间.浏览器再次请求相同内容时会在Http请求头里添加 If-Modified-Since:时间 ,这表示在询问服务器请求的内容在这个时间之后是否有更新.对于静态内容web服务器会自己进行浏览器缓存是否过期的检查,如果是动态内容则需要动态程序自己来检查. 如果内容没有更新,返回给浏览器的http相应头会包含304 Not Modified的信息,表示web服务器告诉浏览器这个内容没有更新,浏览器可以使用本地缓存的内容,同时服务器也没有将内容正文传给浏览器
- ETag协商,ETag是一串编码,web服务器可以自由定义ETag的格式和实现,如以文件内容的md5值作为ETag。Web服务器返回的相应头里会包含ETag值,web浏览器询问改内容是否发生变化时则会在请求头里添加 If-None-Match:ETag值。
- 浏览器缓存截止日期:使用Expires标记可以告诉浏览器缓存过期的时间,暗示浏览器在缓存过期之前可以直接使用缓存,不用询问服务器,这样可以节省宽带和服务器处理等开销。对于静态内容web服务器在默认情况下不会开启Expires标记,对于动态内容Expires标记仍然需要程序自身添加,类似于之前的Last-Modified.要注意的是Expires是服务器的时间,如果用户本地时间与服务器时间不一致,可能影响到本地缓存的有效期检查.Http协议还有一个Cache-Control的标记可以弥补Expires的不足,格式是Cache-Control:max-age=<second>,它表示缓存过期的相对时间,单位是秒,而且是相对于浏览器本地时间而言。Http响应头同时包含Expires和Cache-Control时浏览器会优先考虑Cache-Control的值
- 如何请求页面:
-
- Ctrl+F5:强制刷新,不适用缓存协商,获取所有内容的最新版本
- F5:允许浏览器在请求中附加必要的缓存协商,但不允许浏览器直接使用本地缓存,也就是能让Last-Modified发挥作用,但对Expires无效
- 转到按钮:浏览器会对所有没有过期的内容直接使用本地缓存,Expires标记只对这种方式有效
Web服务器缓存
。。。。。。。。。。
郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。