Xml_牛客博客

Xml:eXtendsible markup language可扩展的标记语言

Xml有什么用？

1、可以用来保存数据

2、可以用来做配置文件

3、数据传输载体

<?xml version="1.0" encoding="UTF-8"?>
<stus>
    <stu>
        <name>张三</name>
        <age>19</age>
    </stu>
    <stu>
        <name>李四</name>
        <age>19</age>
    </stu>
</stus>

定义xml

>其实就是一个文件，文件后缀为.xml

文档声明

<?xml version="1.0" ?>//version：解析这个xml，使用什么版本解析器解析

<?xml version="1.0" encoding="gbk" ?>//encoding解析这个xml，使用什么编码来翻译

<?xml version="1.0" encoding="gbk" standalone="no" ?>//standalone:no-该文档会依赖关联其他文档，yes：这是一个独立文档

encoding详解

>在解析这个xml的时候，用什么编码去解析 ---解码

电脑上的文件在保存的时候并不是存储的文字，而是存储这些文字对应的二进制。那么这些文字对应的二进制到底上多少呢？根据文件使用的编码来得到

所以要想让我们的xml能够正常的显示中文，有两种解决办法

1、让encoding是gbk或者gb2312

2、如果encoding是utf-8，那么保存文件的时候也必须使用utf-8

3、保存的时候见到的ANSI对应的是gbk编码

为了通用，建议使用utf-8编码保存，以及encoding都是utf-8

元素定义（标签）

1、其实就是里面的标签，<>扩起来的都叫元素.成对出现：

<stu>

</stu>

2、文档声明下来的第一个元素叫做根元素<根标签>

3、标签里面可以嵌套标签

4、空标签

即是开始，也是结束，一般配合属性使用。

<stu>
    <name>张三</name>
    <age/>//空标签
</stu>

5、标签可以自定义

XML 命名规则

XML 元素必须遵循以下命名规则：

名称可以含字母、数字以及其他的字符
名称不能以数字或者标点符号开始
名称不能以字符 “xml”（或者 XML、Xml）开始
名称不能包含空格

可使用任何名称，没有保留的字词。

简单元素 && 复杂元素

简单元素:元素里面包含了普通文字

复杂元素:元素里面包含了其他元素

属性的定义

>定义在元素里面，<元素名称属性名称=“属性值”></属性名称>

xml注释

与html的注释一样，

<!-- -->

xml的注释不允许放在文档第一条，必须在文档声明之后。

xml CDATA

如果某段字符串里面有过多的字符，并且里面包含了类似标签或者关键字的这种文本，不想让xml解析器去解析，那么可以使用CDATA来包装。不过这个CDATA一般比较少看到，通常在服务器给客户端返回数据的时候。

CDATA 部分由 "<![CDATA[" 开始，由 "]]>" 结束

<![CDATA[<a href="www.baidu.com">啦啦啦</a>]]>

非法字符:严格地讲，在 XML 中仅有字符 "<"和"&" 是非法的。省略号、引号和大于号是合法的，但是把它们替换为实体引用是个好的习惯。

XML解析方式

DOM(document object model)解析

把整个xml全部读到内存当中，形成树状结构。整个文档称为document对象，属性对应attribute对象，所有元素节点对应element对象，文本也可以称为text对象，以上所有对象都可以称为Node节点。如果xml特别大，那么将会造成内存溢出。如果文档比较小会比较快。可以对文档进行增删操作。

SAX(Simple API for Xml)基于事件驱动

读一行，解析一行。不会造成内存溢出。不可以进行增删，只能查询。

Xml dom4j基本用法

<?xml version="1.0" encoding="UTF-8"?>
<!-- 这里有两个学生  -->
<stus>
	<stu id="10086">
		<name>张三</name>
		<age>18</age>
		<adress></adress>
	</stu>
	<stu id="10087">
		<name>李四</name>
		<age>28</age>
	</stu>
</stus>

import java.io.File;
import java.util.List;

import javax.lang.model.element.Element;
import javax.swing.text.Document;

import org.dom4j.DocumentException;
import org.dom4j.io.SAXReader;

public class test {

    public static void main(String[] args) {
        // TODO Auto-generated method stub

        try {
            //1、创建sax读取对象
            SAXReader reader = new SAXReader();
            //2、指定解析的xml源
            org.dom4j.Document document = reader.read("src/xml/stus.xml");
            //3、得到元素，得到根元素
            org.dom4j.Element rootElement = document.getRootElement();
            
            System.out.println(document.getName());
            System.out.println(rootElement.getName());
            System.out.println(rootElement.element("stu").getName());
            System.out.println(rootElement.element("stu").element("age").getName());
            System.out.println(rootElement.element("stu").element("age").getData());
            System.out.println(rootElement.element("stu").element("age").getText());
            //获取根元素下面的所有自元素。stu元素
            List<org.dom4j.Element> elements= rootElement.elements();
            //遍历所有的stu元素
            for(org.dom4j.Element element : elements) {
                String name=((org.dom4j.Element) element).element("name").getText();
                Object age=((org.dom4j.Element) element).element("age").getText();
                System.out.println("name:"+name+",age:"+age);
            }
        } catch (DocumentException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }

}

Dom4j的Xpath使用

1、dom4j里面支持XPath的写法，xpath其实是xml的路径语言，支持我们在解析xml的时候能够快速定位到具体的某一个元素。

import java.io.File;
import java.util.List;

import javax.lang.model.element.Element;
import javax.swing.text.Document;

import org.dom4j.DocumentException;
import org.dom4j.io.SAXReader;

public class XpathTest {

	public static void main(String[] args) {
		// TODO Auto-generated method stub

		try {
			//1、创建sax读取对象
			SAXReader reader = new SAXReader();
			//2、指定解析的xml源
			org.dom4j.Document document = reader.read("src/xml/stus.xml");
			//3、得到元素，得到根元素
			org.dom4j.Element rootElement = document.getRootElement();
			
			//要想使用xpath，还得添加真实的jar
			org.dom4j.Element nameElement =(org.dom4j.Element) rootElement.selectSingleNode("//name");
			System.out.println(nameElement.getText());
			
			List<org.dom4j.Element> list=rootElement.selectNodes("//name");
			
			for(org.dom4j.Element element:list) {
				System.out.println(element.getText());
			}
		} catch (DocumentException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}

}

XML约束

如下的文档，属性的id值是一样的，这在生活中是不可能出现的，并且第二个学生的姓名有好几个。一般也很少。那么怎么规定ID的值唯一或者是元素只能出现一次，不能出现多次呢？甚至是规定里面只能出现具体的元素名称。

<?xml version="1.0" encoding="UTF-8"?>
<!-- 这里有两个学生  -->
<stus>
    <stu id="10086">
        <name>张三</name>
        <age>18</age>
        <adress></adress>
    </stu>
    <stu id="10086">
        <name>李四</name>
        <age>28</age>
    </stu>
</stus>

###DTD

　　语法自成一派，早起就出现了，可读性比较差。

<?xml version="1.0" encoding="UTF-8"?>
<!-- 引入dtd来约束这个xml  -->
<!-- 文档类型 根标签名字 网络上的dtd dtd的名称 dtd的路径 -->
<!-- <!DOCTYPE stus PUBLIC "//UNKNOWN/" "unknown.dtd"> -->
<!-- 引入dtd的方式：根标签名字 引入本地dtd dtd的位置 -->
<!-- <!DOCTYPE stus SYSTEM "stus.dtd"> -->
<!DOCTYPE stus[
<!-- + 1个或多个 ， *0个或多个 ，？0个或1个 -->
<!ELEMENT stus (stu)+>
<!ELEMENT stu (name,age)> <!--两个都有-->

<!ELEMENT stu (name | age)> <!--两个选一个-->

<!ELEMENT name (#PCDATA)> <!ELEMENT age (#PCDATA)> <!ATTLIST stu id CDATA #IMPLIED> ]> <stus> <stu id="10086"> <name>张三</name> <age>18</age> </stu> <stu id="10086"> <name>张三</name> <age>18</age> </stu> </stus>

###Schema

　　其实就是一个Xml，使用xml的语法规则，xml解析起来比较方便，是为了替代DTD但是Schema约束文本内容比DTD还要多，所以目前也没有真正意义上的替代DTD。

<?xml version="1.0" encoding="UTF-8"?>
<schema xmlns="http://www.w3.org/2001/XMLSchema" 
targetNamespace="http://www.example.org/teacher" 
xmlns:tns="http://www.example.org/teacher" elementFormDefault="qualified">

<element name="teachers">
    <complexType>
        <sequence>
            <element name="teacher">
                <!-- 用来声明这个teacher元素是复杂元素 -->
                <complexType>
                    <sequence>
                        <!-- 以下是简单元素 -->
                        <element name="name" type="string"></element>
                        <element name="age" type="int"></element>
                    </sequence>
                </complexType>
            </element>
        </sequence>
    </complexType>
</element>

</schema>