1.1 HTML基本概念
互联网上的信息是以网页的形式呈现给用户的,因此,网页是网络信息传递的载体。
网页文件是用一种标签语言书写的,这种语言称为HTML(Heyper Text Markup Language,超文本标记语言),是用来描述网页文档的一种置标语言。HTML文件以.htm或.html为扩展名。
1.1.1 什么是HTML
HTML不是一种编程语言,而是一种描述性的标记语言(Markup Language),用于描述网页的内容和结构。HTML最基本的语法是:
标签通常是成对出现,有一个开始标签就对应有一个结束标签。结束标签只是在开始标签的前面加一个斜杠“/”。当浏览器收到HTML文件后,就会解释里面的标签,然后把标签相对应的功能表达出来,从而显示浏览网页的内容。
例如,在HTML中,用<h1></h1>标签来定义一个文章的标题,用<br/>标签来定义一个换行符。当浏览器遇到<h1>xxx</h1>标签时,会把该标签中的内容(xxx)自动形成一个标题。当遇到<br/>标签时会自动换行,标签中的“/”可以省略,但为了代码的规范性,一般建议加上。
1.1.2 HTML的发展历程
HTML主要用于描述超文本中内容的显示方式。标记语言从诞生到今天,经历了二十几年的不断更新与改进,已经越来越完善,经历的版本及发布日期如表1.1所示。
表1.1 HTML发展史
1.1.3 HTML与XHTML的重要区别
通过HTML的发展历史,可以知道这套语言有两个版本,即XHTML和HTML。虽然目前浏览器都兼容HTML,但是为了使网页能够符合标准,应该尽量使用XHTML规范来编写代码,需要注意的事项有:
(1)在XHTML中,标签名必须小写。在HTML中,标签名称可以大写,也可以小写。
(2)在XHTML中,属性名称必须小写。在HTML中,属性名称不区分大小写。
(3)在XHTML中,标签必须严格嵌套。在HTML中,对标签的嵌套没有严格的规定。
(4)在XHTML中,标签必须封闭。在HTML中,标签不封闭也是正确的,即标签可以不成对出现。例如,“<p>我没有结束标记”和“<p>我有开始标记和结束标记</p>”,在浏览器中显示的结果是完全相同的;但是,在XHTML中,第一条语句是不被允许的(不能正常显示),必须像第二条语句那样,严格地使标签封闭。
(5)在XHTML中,即使是空元素的标签也必须封闭。这里说的空标签,就是指那些像<img><br><hr>等不对称的标签,它们也必须闭合,在HTML中,这类标签书写为<img>或<img />均是正确的;但在XHTML规范中,必须写为<img />才正确。
(6)在XHTML中,属性值必须使用双引号引起来。在HTML中,属性值可以不必使用双引号。
(7)在XHTML中,属性值必须使用完整形式。在HTML中,一些属性经常使用简写方式设定属性值,如<input disabled>;而在XHTML中,必须完整地写为<input disabled="disabled"/>。
1.1.4 HTML文件基本结构
完整的HTML结构包括头部、主体等,页面的各部分内容都在对应的标签中。
一个HTML文件的基本结构如示例1.1所示。
示例1.1:
1.DOCTYPE声明
DOCTYPE是用来声明文档类型的,声明文档为HTML文档结构,用来检验是否符合Web相关标准,同时告诉浏览器使用哪种规范来解释这个文档中的代码。DOCTYPE声明必须位于HTML文档的第一行。
2.<html>标签
<html>标签是HTML语言中最基本的单位,一个网页以<html>标签开始、以</html>标签结束。
3.<head>标签
<head>标签用于定义文档的头部,是所有头部元素的容器。<head>标签中的元素可以引用脚本,指示浏览器在哪里找到样式表,提供元信息等。文档的头部描述了文档的各种属性和信息,绝大多数文档头部包含的数据都不会真正作为内容显示给用户。
4.<title>标签
<title>标签描述网页的标题,类似一篇文章的标题,一般为一个简洁的主题,并能吸引读者有兴趣读下去,例如,百度首页,对应的网页标题为:
在浏览器中的效果如图1.1所示。
图1.1 <title>标签的使用
5.<meta>标签
<meta>标签描述网页具体的摘要信息,包括文档内容类型、字符编码信息、搜索关键字、网站提供的功能和服务的详细描述等。<meta>标签描述的内容并不显示,其目的是方便浏览器解析或利于搜索引擎搜索,采用“名称/值”对的方式描述摘要信息。
其中,属性“http-equiv”提供“名称/值”中的名称,“content”提供“名称/值”中的值,HTML代码的含义如下。
名称:content-type(文档内容类型)。
值:text/html。
charset=UTF-8(html文档的字符编码为国际标准字符),charset表示字符集编码。常用的编码有以下几种。
GB2312:简体中文,一般用于包含中文和英文的页面。
ISO-885901:纯英文,一般用于只包含英文的页面。
BIG5:繁体,一般用于带有繁体字的页面。
UTF-8:国际通用的字符编码,同样适用于中文和英文的页面。与GB2312编码相比,国际通用性更好,但字符编码的压缩比较低,对网页性能有一定的影响。
当网页打开后出现乱码的原因就是没有设置<meta>标签、字符编码造成的,从这里可以看到,一个网页的字符编码是多么重要,因此在制作网页时,一定不要忘记设置网页编码,以免出现页面乱码问题。
6.<body>标签
<body>标签是用在网页中的一种HTML标签,表示网页的主体部分,也就是用户可以看到的内容,可以包含文本、图片、音频、视频等各种内容。