PHP通过SimpleXML访问xml文档

介绍

SimpleXML提供了一种简单,直观的方法来处理XML。它只有一个单一类型的类,三个函数和六个方法。

使用SimpleXML

SimpleXMLElement 类是这个扩展中所有操作的核心类。可以用new关键字直接创建这种类,或是使用simplexml_load_file()或 simplexml_load_string()函数返回这种类。本文将使用清单7-1的XML文档来说明如何使用SimpleXML,将此文档命名为 sml.xml。

清单7-1 sml.xml

  1. <?xml version=”1.0″ encoding=”UTF-8″?>
  2. <!DOCTYPE book PUBLIC “-//OASIS//DTD DocBook XML V4.1.2//EN”
  3. “http://www.oasis-open.org/docbook/xml/4.1.2/docbookx.dtd”>
  4. <book lang=”en”>
  5. <bookinfo>
  6. <title>SimpleXML in PHP 5</title>
  7. <author>
  8. <firstname>Rob</firstname>
  9. <surname>Richards</surname>
  10. </author>
  11. <copyright>
  12. <year>2005</year>
  13. <holder>Rob Richards</holder>
  14. </copyright>
  15. </bookinfo>
  16. <preface>
  17. <title>Using SimpleXML</title>
  18. <para>An example DOM Tree using DocBook.</para>
  19. </preface>
  20. <chapter id=”navigation”>
  21. <title>Accessing Elements</title>
  22. <para>Elements are accessed as properties</para>
  23. <para>
  24. <![CDATA[
  25. <?php
  26. $data = ‘<?xml version=”1.0″?>
  27. <root>content</root>’;
  28. $sxe = simplexml_load_string($data);
  29. var_dump($sxe);
  30. ?>
  31. ]]>
  32. </para>
  33. </chapter>
  34. </book>

创建一个SimpleXMLElement对象

使用new关键字创建

  1. $xml = “<root><node1>Content</node1></root>”;
  2. $sxe = new SimpleXMLElement($xml);//SimpleXMLElement Object ( [node1] => Content )

使用simplexml_load_string()创建

  1. $xml = “<root><node1>Content</node1></root>”;
  2. $sxe = simplexml_load_string($xml);//SimpleXMLElement Object ( [node1] => Content )

如何选择这两种创建SimpleXMLElement的方法呢?simplexml_load_string()提供了更多的函数,比如控制解析选项的能力。如果不需要这些额外的函数的话就可以凭个人爱好选择一种方法。

使用simplexml_load_file()从一个URI创建

  1. $sxe = simplexml_load_file(“filename.xml”);

simplexml_load_string()和simplexml_load_file()都有一个必需的参数和可选的参数。从PHP5.1开始simplexml_load_file()多了一个用来控制解析行为的第三个参数。

  1. /* Prototype for PHP 5.0 */
  2. simplexml_load_file(string data [, string class_name])
  3. /* Prototype for PHP 5.1 */
  4. simplexml_load_file(string data [, string class_name [, int options]])

保存XML数据

与DOM扩展一样,SimpleXML也提供了一个用来输出XML内容的方法asXML()。可以用这个方法以字符串或文件形式输出这个文档或文档中的某个节点。

  1. $xml = “<root><node1>content</node1></root>”;
  2. $sxe = new SimpleXMLElement($xml);
  3. print $sxe->asXML();
  4. $sxe->asXML(‘test.xml’);

输出:

  1. <?xml version=”1.0″?>
  2. <root><node1>content</node1></root>

访问元素节点

在SimpleXML中,可以直接通过元素的名称来访问特定的元素。

访问元素

当一个文档被载入SimpleXML时,文档被看成是一个SimpleXML对象,文档中的所有元素都被看成是该对象的属性。

  1. <?php
  2. $book = simplexml_load_file(‘sxml.xml’);
  3. /* Access the bookinfo child element of the book element */
  4. $bookinfo = $book->bookinfo;
  5. /* Access the title child element from the bookinfo element */
  6. $title = $bookinfo->title;
  7. ?>

如果使用DOM来访问title,代码如下

  1. $dom = new DOMDocument();
  2. $dom->load(‘sxml.xml’);
  3. $book = $dom->documentElement;
  4. foreach($book->childNodes as $node) {
  5. if ($node->nodeName == “bookinfo”) {
  6. foreach($node->childNodes as $child) {
  7. if ($child->nodeName == “title”) {
  8. $node = $child;
  9. break 2;
  10. }
  11. }
  12. }
  13. }
  14. if ($node) {
  15. $title = $node;
  16. }

显然SimpleXML对的起它的名字。

访问内容

  1. <?php
  2. $book = simplexml_load_file(‘sxml.xml’);
  3. $bookinfo = $book->bookinfo;
  4. $title = $bookinfo->title;
  5. /* Object examined with var_dump */
  6. var_dump($title);
  7. /* Using print with element containing text-only content */
  8. print “Title: “.$title.”\n”;
  9. $author = $bookinfo->author;
  10. /* Object examined with var_dump */
  11. var_dump($author);
  12. /* Using print with element containing child elements */
  13. print “Author: “.$author.”\n”;
  14. ?>

这段代码检查了两个SimpleXMLElement对象,$author和$title。两者的区别是$author元素有包含子元素而$title元素只包含一个文本节点。
输出如下:
object(SimpleXMLElement)#4 (1) {
[0]=>
string(18) “SimpleXML in PHP 5″
}
Title: SimpleXML in PHP 5
object(SimpleXMLElement)#6 (2) {
[”firstname”]=>
string(3) “Rob”
[”surname”]=>
string(8) “Richards”
}
Author:

检查输出结果可以发现,$title是一个包含有文本内容的SimpleXMLElement对象,索引0表示元素的文本内容,当打印$title时,文本内容将以字符串形式返回。

$author元素有两个子元素,从输出结果可以看出,这些子元素被看成SimpleXMLElement对象的属性,这些属性的值是它们对应的节点包含的内容。用print输出$author时,输出结果是空格和换行符。

如果一个元素无子元素,只包含文本内容,那么可以将此元素所对应的SimpleXMLElement对象视为一个字符串来使用,有些情况下,为了获得以字符串形式返回文本内容,必须执行类型转换操作:

  1. $titlecontent = (string) $title;

有子元素的元素所对应的SimpleXMLElement对象将返回该对象直属的文本节点,而不是任一子元素的内容。如果用print输 出$author,将得到一个27字符长度,包含空格和换行符的字符。 Neither of the child elements,firstname or surname, nor their content is returned in the string.

为了理解最后一点,可以运行一些下面这段代码:

  1. $doc = new SimpleXMLElement(‘<root>some<child1>subtext</child1>thing</root>’);
  2. print $doc;

使用迭代对象

SimpleXMLElement 对象在大多数情况下是可迭代的,可以用这个特性来访问文档中多个元素名一样的节点,如清单7-1中的para元素。在使用元素名作为属性来访问一个元素 时,SimpleXMLElement对象不是一个单一节点的存取器,它实际上是作为属性访问的元素名节点的集合。直接利用元素名作为属性访问实际上访问 访问这个集合中的第一个元素。

看下这段代码

  1. $book = simplexml_load_file(‘sxml.xml’);
  2. $para = $book->chapter->para;
  3. print $para.”\n”;
  4. foreach($para AS $node) {
  5. print $node.”\n”;
  6. }

这段代码中,$para变量就是para元素的集合,实际上包含了两个元素。如果直接访问$para的话实际上是访问第一个para元素,利用迭代 可以看出 $para所包含的内容是两个元素。其中CDATA节点被看做是纯文本的内容,其中包含的空格和换行符都会被如实输出。

用迭代的方式来访问所有的元素显然不太实际,有时候我们希望访问结果集中的某个特定的元素,这时可以使用从0开始的索引来访问这个结果集,例如:

  1. $book = simplexml_load_file(‘sxml.xml’);
  2. $para = $book->chapter->para[1];
  3. print “Content: “.$para.”\n”;
  4. foreach($para AS $node) {
  5. print “Iter Content: “.$node.”\n”;
  6. }

运行这段代码会发现foreach循环失效了,这是因为SimpleXML知道你只是在寻找结果集中某个特定的元素,这种情况下对象是不可迭代的。

Caution:使用索引方式访问一个SimpleXMLElement对象会返回一个不可以迭代的对象,因为它是一个单一的元素而不是一个元素集。

访问未知元素

在不知道XML文档的结构的情况下可以利用SimpleXML中的children()方法来返回一个可以迭代方式访问的某个元素的所有子元素的SimpleXML对象。如:

  1. $book = simplexml_load_file(‘sxml.xml’);
  2. $author = $book->bookinfo->author;
  3. $children = $author->children();
  4. foreach($children AS $child) {
  5. print $child.”\n”;
  6. }

上述代码用children()方法返回了author节点下的所有子元素,然后用foreach循环输出。也可以使用索引方式访问返回的子元素,如echo $children[1];。

理解PHP对象函数

SimpleXMLElement对象的属性是动态的,因为这些属性是由对象实例决定的,而不是由类本身决定的。在PHP中,可以利用get_object_vars()函数来返回某个对象的所有属性,返回的结果是一个包含属性和值的数组,如:

  1. $props = get_object_vars($author);
  2. foreach ($props AS $name=>$value) {
  3. print $name.”: “.$value.”\n”;
  4. }

输出:
firstname: Rob
surname: Richards
这段代码访问的子元素都只包含文本内容,所以返回的数组只包含属性名和值,对于一个包含许多子节点的元素,返回的结果稍微复杂点:

  1. $props = get_object_vars($book->bookinfo);
  2. var_dump($props);

输出:

array(3) {
[”title”]=>
string(18) “SimpleXML in PHP 5″
[”author”]=>
object(SimpleXMLElement)#4 (2) {
[”firstname”]=>
string(3) “Rob”
[”surname”]=>
string(8) “Richards”
}
[”copyright”]=>
object(SimpleXMLElement)#5 (2) {
[”year”]=>
string(4) “2005″
[”holder”]=>
string(12) “Rob Richards”
}
}

使用DOM互操作

另一种访问未知元素的方法是使用DOM,可以将一个节点导入DOM扩展,然后使用DOM的属性和方法来处理。

  1. $book = simplexml_load_file(‘sxml.xml’);
  2. $author = $book->bookinfo->author;
  3. $children = $author->children();
  4. foreach($children AS $child) {
  5. /* Import node into DOM, and get nodeName */
  6. $element = dom_import_simplexml($child);
  7. $name = $element->nodeName;
  8. print $name.”: “.$child.”\n”;
  9. }

将节点导入DOM扩展时并没有创建一个节点的副本(copy),而是直接访问导入的节点(JIMMY注:这个概念很重要)。

修改内容

利用SimpleXML修改元素内容非常方便,你可以改变或移除树中的某个元素,但是不能直接在树中添加一个元素。要添加一个元素,可以使用DOM的互操作性:

  1. $xml = “<root><node1>content</node1></root>”;
  2. $sxe = new SimpleXMLElement($xml);
  3. $dom = dom_import_simplexml($sxe);
  4. $dom->appendChild(new DOMElement(“node2”, “content2”));
  5. print $sxe->asXML();

输出:

  1. <?xml version=”1.0″?>
  2. <root><node1>content</node1><node2>content2</node2></root>

编辑文本内容

可以利用SimpleXML的属性赋值方法来直接编辑一个元素的内容,要主意的是如果文档中有多个元素名一样的元素,如果没有使用索引来指定要编辑哪个元素时PHP将发出一个警告。如:

  1. $book = simplexml_load_file(‘sxml.xml’);
  2. /* Modify an unspecified para element where multiple para elements exist */
  3. $book->chapter->para = “Removed CDATA”;

输出:
Warning: main() [/phpmanual/function.main.html]: Cannot assign to an array of nodes
(duplicate subnodes or attr detected)

必须给para指定索引告诉程序你要编辑哪个元素:

  1. $book = simplexml_load_file(‘sxml.xml’);
  2. $book->chapter->para[1] = “Removed CDATA”;
  3. print $book->chapter->asXML();

输出:

  1. <chapter id=”navigation”>
  2. <title>Acessing Elements</title>
  3. <para>Elements are accessed as properties</para>
  4. <para>Removed CDATA</para>
  5. </chapter>

这样,第二个para元素的内容被改为Removed CDATA。如果要编辑一个在文档中唯一存在的元素可不必指定索引,直接修改。如修改title:

  1. $book = simplexml_load_file(‘sxml.xml’);
  2. $book->chapter->title = “New Title”;
  3. $book->chapter->para[1] = “Removed CDATA”;
  4. print $book->chapter->asXML();

输出:

  1. <chapter id=”navigation”>
  2. <title>New Title</title>
  3. <para>Elements are accessed as properties</para>
  4. <para>Removed CDATA</para>
  5. </chapter>

强烈建议使用索引来编辑元素,除非你对文档的结果非常确定。使用索引来编辑title元素会比较安全,如$book->chapter->title[0] = “New Title”;这行代码用索引[0]指定要编辑第一个title。

编辑有子树的元素

  1. $book = simplexml_load_file(‘sxml.xml’);
  2. $cholder = $book->bookinfo->copyright->holder;
  3. print $cholder->asXML().”\n”;
  4. $book->bookinfo = “No Book Info”;
  5. print $book->bookinfo->asXML().”\n”;
  6. print $cholder->asXML().”\n”;

输出:

  1. <holder>Rob Richards</holder>
  2. <bookinfo>No Book Info</bookinfo>
  3. Warning: SimpleXMLElement::asXML() [/phpmanual/function.asXML.html]: Node no
  4. longer exists in N:\CVS Projects\php5\Debug_TS\booksxe.php on line 7

这段代码中,首先将文档中的holder元素赋值给$cholder变量,然后打印该变量。bookinfo元素包含有title,author和 copyright子树,它的内容被字符串No Book Info代替,从bookinfo的输出结果可以看出,它的子树被清空并且被字符串代替了。接着试图再次打印$cholder变量的XML内容,程序输出 一个警告,这个变量依然是一个SimpleXMLElement对象,但它所属的节点在bookinfo元素改变时已经被破坏了。

另一种情况。将bookinfo元素中的子元素用字符串 代替。

  1. $book = simplexml_load_file(‘sxml.xml’);
  2. $book->bookinfo = “<title>SimpleXML in PHP 5</title>”;
  3. print $book->bookinfo->asXML().”\n”;

如果你认为上述代码将bookinfo中的内容清空后再给bookinfo创建了一个子节点title,那么你错了。输出结果是
<title>SimpleXML in PHP 5</title>
实际上bookinfo元素的子元素都被移除了,但是新赋值的XML数据被转义成文本内容,而不是一个新的子元素。

如果想用一个子树代替另一个子树,可以利用DOM扩展:

  1. $book = simplexml_load_file(‘sxml.xml’);
  2. $bookinfo = dom_import_simplexml($book->bookinfo);
  3. /* 移除bookinfo元素下的所有子元素*/
  4. while ($bookinfo->firstChild) {
  5. $bookinfo->removeChild($bookinfo->firstChild);
  6. }
  7. $bookinfo->appendChild(new DOMElement(“title”, “SimpleXML in PHP 5”));
  8. print $book->bookinfo->asXML().”\n”;

输出结果:

  1. <bookinfo>
  2. <title>SimpleXML in PHP 5</title>
  3. </bookinfo>

移除元素

可以用PHP内置函数unset()来将一个元素从树中移除。unset()的参数必须是一个SimpleXMLElement,用属性方法来访问要移除的元素。例如,从chapter节点移除title元素:

  1. $book = simplexml_load_file(‘sxml.xml’);
  2. $book->chapter->para[1] = “Removed CDATA”;
  3. unset($book->chapter->title);
  4. print $book->chapter->asXML();

上述代码执行后,chapter的结构为:

  1. <chapter id=”navigation”>
  2. <para>Elements are accessed as properties</para>
  3. <para>Removed CDATA</para>
  4. </chapter>

将这个结果与下面代码执行的结果想比较:

  1. $book = simplexml_load_file(‘sxml.xml’);
  2. $book->chapter->para[1] = “Removed CDATA”;
  3. $title = $book->chapter->title;
  4. unset($title);
  5. print $book->chapter->asXML();

输出结果

  1. <chapter id=”navigation”>
  2. <title>Acessing Elements</title>
  3. <para>Elements are accessed as properties</para>
  4. <para>Removed CDATA</para>
  5. </chapter>

title元素没有被移除,unset函数只对$title变量作用并没有将title元素从树中移除。

在移除一个元素时必须注意,用索引来指定的特定元素不会被移除:

  1. $book = simplexml_load_file(‘sxml.xml’);
  2. $book->chapter->para[1] = “Removed CDATA”;
  3. unset($book->chapter->title[0]);
  4. print $book->chapter->asXML();

输出:

  1. <chapter id=”navigation”>
  2. <title>Acessing Elements</title>
  3. <para>Elements are accessed as properties</para>
  4. <para>Removed CDATA</para>
  5. </chapter>

如果要移除所有的para元素时可以利用下面代码:

  1. $book = simplexml_load_file(‘sxml.xml’);
  2. unset($book->chapter->para);
  3. print $book->chapter->asXML();

输出:

  1. <chapter id=”navigation”>
  2. <title>Acessing Elements</title>
  3. </chapter>

问题是如果你只想移除其中的一个para元素时要怎么办。这时可以再次用到DOM扩展:

  1. $book = simplexml_load_file(‘sxml.xml’);
  2. $chapter = dom_import_simplexml($book->chapter);
  3. $node = $chapter->lastChild;
  4. while($node) {
  5. if ($node->nodeName == “para”) {
  6. $chapter->removeChild($node);
  7. $node = NULL;
  8. break;
  9. }
  10. $node = $node->previousSibling;
  11. }
  12. print $book->chapter->asXML();

输出:

  1. <chapter id=”navigation”>
  2. <title>Acessing Elements</title>
  3. <para>Elements are accessed as properties</para>
  4. </chapter>

所幸的是PHP5.2开始已经支持删除用索引指定的元素了:

  1. $book = simplexml_load_file(‘sxml.xml’);
  2. unset($book->chapter->para[1]);
  3. print $book->chapter->asXML();

访问属性

读取属性

下面的代码输出了book元素中的lang属性

  1. $book = simplexml_load_file(‘sxml.xml’);
  2. print $book[‘lang’];

访问用索引指定的元素的属性:

  1. $book = simplexml_load_file(‘sxml.xml’);
  2. print $book->chapter[0][‘id’];

在不知道属性名的情况下可以用attributes()方法来输出属性:

  1. $book = simplexml_load_file(‘sxml.xml’);
  2. foreach($book->chapter->attributes() AS $attribute) {
  3. print $attribute.”\n”;
  4. }

如果要获得位置的属性名,可以使用DOM扩展:

  1. $book = simplexml_load_file(‘sxml.xml’);
  2. foreach($book->chapter->attributes() AS $attribute) {
  3. $att = dom_import_simplexml($attribute);
  4. print $att->nodeName.”\n”;
  5. print $attribute.”\n”;
  6. }

修改属性
修改属性的值跟修改元素的值一样,直接对其赋值就可以了:

  1. $book = simplexml_load_file(‘sxml.xml’);
  2. $book[‘lang’] = “es”;
  3. print $book[‘lang’];

添加一个属性也很简单,如果对一个不存在的属性名进行赋值就给元素创建一个新属性

  1. $book = simplexml_load_file(‘sxml.xml’);
  2. $book->bookinfo->author->firstname[“prefix”] = “Mr.”;
  3. print $book->bookinfo->author->asXML();

输出:

  1. <author>
  2. <firstname prefix=”Mr.”>Rob</firstname>
  3. <surname>Richards</surname>
  4. </author>

移除属性

移除属性也用到unset()函数:

  1. $book = simplexml_load_file(‘sxml.xml’);
  2. $book->bookinfo->author->firstname[“prefix”] = “Mr.”;
  3. print $book->bookinfo->author->firstname->asXML().”\n\n”;
  4. unset($book->bookinfo->author->firstname[“prefix”]);
  5. print $book->bookinfo->author->firstname->asXML();

输出:

  1. <firstname prefix=”Mr.”>Rob</firstname>
  2. <firstname>Rob</firstname>

扩展SimpleXMLElement类

  1. class mySXE extends SimpleXMLElement {
  2. function appendChild($name, $content) {
  3. $dom = dom_import_simplexml($this);
  4. $dom->appendChild($dom->ownerDocument->createElement($name, $content));
  5. }
  6. }

当实例化扩展的类时,文档的每个节点对象的类型都是扩展类的类型。

  1. $sxe = new mySXE(“<root><node1></node1></root>”);
  2. $sxe->node1->appendChild(“node2”, “content”);
  3. print $sxe->asXML();

输出:

  1. <?xml version=”1.0″?>
  2. <root><node1><node2>content</node2></node1></root>

使用new方法可以用来处理字符串类型的XML,如果XML保存在一个文件中,那么可以将扩展的类名作为第二个参数传给simplexml_load_string或simplexml_load_file

  1. $sxe = simplexml_load_string(“<root><node1></node1></root>”, “mySXE”);
  2. $sxe->node1->appendChild(“node2”, “content”);
  3. print $sxe->asXML();

输出结果与用new关键字输出的结果一样。

在SimpleXML中使用命名空间

将清单7-1的内容改为

  1. <?xml version=”1.0″ encoding=”UTF-8″?>
  2. <book lang=”en”>
  3. <bookinfo xmlns=”http://www.example.com/ns1″>
  4. <title>SimpleXML in PHP 5</title>
  5. <author>
  6. <firstname>Rob</firstname>
  7. <surname>Richards</surname>
  8. </author>
  9. <copyright>
  10. <year>2005</year>
  11. <holder>Rob Richards</holder>
  12. </copyright>
  13. </bookinfo>
  14. </book>

如果试图用普通的方法来访问元素或属性,你会分析这并不可行,例如:

  1. $book = simplexml_load_file(‘sxmlns.xml’);
  2. print $book[“lang”].”\n”;
  3. print $book->bookinfo->title.”\n”;

输出的结果是两行空白。

在访问命名空间节点前,必须使用children()和attributes()方法。这两个方法不仅可以在没有指定参数的时候使用,也可以在指定 一个 URI命名空间作为参数使用。如果一个SimleXMLElement对象是从这两个方法返回的,那么你就可以像普通的元素和属性一样访问命名空间下的元 素和属性:

  1. $book = simplexml_load_file(‘sxmlns.xml’);
  2. /* 返回 http://www.example.com/ns2 命名空间下的所有属性 */
  3. $bookatts = $book->attributes(“http://www.example.com/ns2”);
  4. print $bookatts[“lang”].”\n”;
  5. /* 返回 http://www.example.com/ns1 命名空间下的所有元素*/
  6. $bookns = $book->children(“http://www.example.com/ns1”);
  7. $bookinfo = $bookns->bookinfo;
  8. /* 重置命名空间来访问非命名空间的元素 */
  9. $nonsbkinfo = $bookinfo->children();
  10. print $nonsbkinfo->title.”\n”;

children ()和attributes()方法可以被看做是过滤器,如果没有参数或者传递一个NULL作为参数,这两个方法将返回非命名空间下的元素或属性;否则将 返回特定命名空间下的元素或属性。在重置之前,命名空间仍然起作用并且被子节点继承。例如,使用$bookinfo被设置为命名空间 http://www.example.com/ns1的对象,可以使用 print $bookinfo->author->firstname来但因author中的firstname元素。所有的元素都在命名空间下,因此 你在创建$bookinfo对象时不必一直使用children()设置命名空间。

留下评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注

6 + 3 =