简介:
HTTP(HyperText Transfer Protocol) 超文本传输协议,是互联网上行应用最广泛的一种网络协议。
HTTP是一个客户端和服务器端请求和应答的标准(TCP),客户端是终端客户,服务器端是网站,通过web浏览器,网络爬虫或者其他工具,客户端发起一个到服务器上指定端口(默认为80)的HTTP请求,这个请求发起者称之为用户代理(User Agent)。应答的服务器上存储着一些资源,比如html文件或图片,这个服务器称之为源服务器(origin server)。
在用户代理和源服务器之间可能存在多个中间层,比如代理,网关,或者隧道(tunnels),尽管TCP/IP协议是互联网上最流行的应用,HTTP协议并没国定必须使用它和基于它支持的层。
HTTP协议可以在任何其他互联网协议上实现。
一、http协议版本:
http 0.9 仅用于传输html文档
http 1.0
MIME: Multipurpose Internet Mail Extensions 引入MIME机制,从而支持多媒体数据
引入keep-alive(持久连接): 必须显式注明使用,才可以启用
缓存机制
http 1.1:
更多请求方法,更加精细缓存控制;持久连接(persistent),原生支持
http 2.0:
spdy google开发的,还没有成为标准,但是已经有大量的开发簇拥
二、http协议的基本概念:
http事务:
一次请求及对应的响应的整个过程
http方法:
GET:请求获取一个资源,需要服务器发送
HEAD: 跟GET近似, 但其不需要服务响应请求的资源,而返回相应首部
POST基于HTML表单向服务器提交数据,服务器通常需要存储此数据 (位置:通常为关系型数据库)
PUT与GET相反, 向服务器发送资源: 服务器通常需要存储此资源:(位置:通常为文件系统)
DELETE删除URL指向的资源
OPTIONS探测服务器端对请求的URL所支持使用的请求方法
TRACE跟踪一次请求中间所经过的代理服务器、防火墙或网关等
http状态码:
1xx: 信息性状态码
2xx:成功状态码
200: OK
201: CREATED
3xx: 重定向类的状态码,返回一个新地址
301: Moved Permanently永久重定向
302:Found,临时重定向,会在相应报文中使用"Location:新位置";
304:Not Modified, 诶做任何修改
4xx: 客户端类错误
403: Forbidden,请求被拒绝
404:Not Found,服务器找不到请求资源
405: Method Not Allowed, 不允许此方法请求此资源
5xx:服务器类的错误
500: Internal Server Error 服务器内部错误
502: Bad Gateway, 代理服务器从上游服务器收到一条伪响应
503: Service Unavailable,服务暂时不可用
http协议: 协议首部
是在应用层的首部,封装在应用层,在数据前段指定了状态码、指定资源等信息,可以分为以下几类:
1. 通用首部
2. 请求首部
3. 响应首部
4. 实体首部
5. 扩展首部 非标准首部,可由程序员自行创建: X-Forward-For, X-Via
协议首部格式:
Name: Value
Content-Type: p_w_picpath/gif
http请求报文:
<method> <request-URL> <version>
<HEADERS>
这个空白行是必须存在的
<entity-body>
http响应报文:
<version> <status> <reason-phrase>
<HEADERS>
这个空白行是必须存在的
<entity-body>
解释:
<method>: 请求方法:
<request-URL>: 请求的资源,可以使相对路径,如/p_w_picpaths/log.jpg, 也可是对决路径,http://www.magedu.com/p_w_picpaths/banner.jpg
<version>: http协议版本,格式HTTP/<major>.<minor>, 例如 HTTP/1.0, HTTP/1.1
<headers>: 各种所可以使用的首部
<status>: 状态码
<reason-phrase>: 原因短语, 指状态码的易读信息
-
通用首部:
Connection:定义C/S之间关于请求、响应的有关选项
Connection: keep-alive
Cache-Control: 缓存控制
请求首部:
Client-IP:
Host: 请求的主机
Referer: 指明了请求当前资源原始资源的URL(跳转前的页面URL,可以用来防盗链)
User-Agent: 用户代理
Accept首部:
Accept: 服务端能够发送的媒体类型(通知服务端我支持什么)
Accpet-Charset:
Accept-Enconding:
Accpet-Language:
条件式请求:(仅HTTP1.1支持)
跟安全相关请求:
Authorization:
Cookie:
响应首部:
Age: 可以缓存的时长
Server: 向客户端说明自己用到的程序名称和版本(nginx/apache?)
协商首部:
vary: 首部列表,服务器会根据列表中的内容挑一个最适用的版本发送给客户端
跟安全相关:
WWW-Authentication:
Set-Cookie
实体首部:
Location: 资源的新位置(302时会用到)
Allow: 允许对此资源适用的请求方法
内容相关的首部:
Content-Enconding: 内容的压缩格式
Content-Language: 内容的编码格式
Content-Length: 本次发送的长度
Content-Location: 内容位置
Content-Type: 内容类型
缓存相关:
Etag
Expires
Last-Modified
二、 web通信原理
一次web资源请求的具体过程(从服务器角度考虑):
建立连接
接受请求
处理请求
访问资源
构建响应
发送响应
记录日志
-
连接分为:
连接套接字:客户端随机端口 连接 服务器上的随机端口
监听套接字:80端口
-
web服务器的I/O结构:
单进程模型:串行;一次只响应一个独立的请求
多进程模型: 每个进程响应一个用户请求,实现并发的效果 eg: apache; 有安全上下文切换,及进程的创建和回收,有大量的内核空间开销
复用的I/O机制:一个进程生成多个线程(线程会共享进程的很多数据,包括打开的文件等),每个线程响应一个用户请求
复用的I/O机制: 多个线程,每个线程同时响应多个用户请求:eg: nginx,