Webエンジニア向けプログラミング解説動画をYouTubeで配信中!
▶ チャンネル登録はこちら

【PHP8.x】DOMNotation::normalize()メソッドの使い方

normalizeメソッドの使い方について、初心者にもわかりやすく解説します。

作成日: 更新日:

基本的な使い方

DOMNotationクラスのnormalizeメソッドは、ノードのテキストノードを正規化するメソッドです。具体的には、DOMNotationノードの子ノードであるテキストノードを結合し、空のテキストノードを削除します。このメソッドは、DOMツリーの構造を整理し、テキストデータの扱いを容易にすることを目的としています。

例えば、あるDOMNotationノードが "Hello" というテキストノードと " World" というテキストノードを連続して子ノードとして持っている場合、normalizeメソッドを呼び出すことで、これらは "Hello World" という一つのテキストノードに結合されます。同様に、内容が空のテキストノード("")が存在する場合、normalizeメソッドによって削除されます。

このメソッドは、DOMドキュメントを操作する際に、テキストノードが細かく分割されている状態を解消し、一貫性のあるデータ構造を維持するために役立ちます。特に、XMLドキュメントの解析や編集を行う際に、テキストノードの扱いを単純化し、処理効率を向上させる効果が期待できます。normalizeメソッドを実行することで、DOMツリーの構造が変更されるため、実行前後のDOM構造の違いを理解しておくことが重要です。

構文(syntax)

1DOMNotation::normalize(): void

引数(parameters)

引数なし

引数はありません

戻り値(return)

戻り値なし

戻り値はありません

サンプルコード

DOMNode::normalize でDOMツリーを正規化する

1<?php
2
3declare(strict_types=1);
4
5/**
6 * DOMNode::normalize の動作を示すサンプルクラスです。
7 *
8 * DOMNotation::normalize は、DOMNode クラスからこの normalize メソッドを継承しています。
9 * normalize() は、隣接するテキストノードを1つに結合し、空のテキストノードを削除する
10 * ことで、DOMツリーを「正規化」します。
11 *
12 * このサンプルでは、より動作が分かりやすい DOMElement を用いて、
13 * 複数のテキストノードが正規化によってどのように変化するかを示します。
14 * DOMNotation ノードは子ノードを持つことができないため、このメソッドを呼び出しても
15 * 実際には何も起こりませんが、DOMのインターフェースとして存在します。
16 */
17class DomNodeNormalizerExample
18{
19    /**
20     * DOMの正規化処理を実行し、その結果を出力します。
21     */
22    public function demonstrateNormalization(): void
23    {
24        // DOMDocument オブジェクトを作成
25        $dom = new DOMDocument('1.0', 'UTF-8');
26
27        // 整形して出力するためのオプション
28        $dom->preserveWhiteSpace = false;
29        $dom->formatOutput = true;
30
31        // 親要素を作成
32        $root = $dom->createElement('message');
33
34        // 意図的に複数の隣接するテキストノードと、空のテキストノードを追加
35        $root->appendChild($dom->createTextNode('隣接テキスト1'));
36        $root->appendChild($dom->createTextNode('隣接テキスト2'));
37        $root->appendChild($dom->createTextNode('')); // 空のテキストノード
38        $root->appendChild($dom->createTextNode('最後のテキスト'));
39
40        $dom->appendChild($root);
41
42        echo '--- 正規化前のXML ---' . PHP_EOL;
43        echo '子ノード数: ' . $root->childNodes->length . PHP_EOL;
44        echo $dom->saveXML();
45        echo PHP_EOL;
46
47        // ノードを正規化します。
48        // これにより、3つのテキストノードが1つに結合され、空のノードは削除されます。
49        // 結果として、子ノードの数は4つから1つになります。
50        $root->normalize();
51
52        echo '--- 正規化後のXML ---' . PHP_EOL;
53        echo '子ノード数: ' . $root->childNodes->length . PHP_EOL;
54        echo $dom->saveXML();
55    }
56}
57
58// サンプルコードの実行
59$example = new DomNodeNormalizerExample();
60$example->demonstrateNormalization();

このPHPサンプルコードは、DOMNotation::normalizeメソッドの動作を解説するものです。このメソッドはDOMNodeクラスから継承されており、XMLドキュメントの構造を整理する「正規化」という処理を行います。

normalizeメソッドの主な機能は、隣り合って存在する複数のテキストノードを一つのテキストノードに結合し、内容が空のテキストノードを削除することです。このメソッドは引数を取らず、戻り値もありません。呼び出したオブジェクト(ノード)の状態を直接変更します。

サンプルコードでは、まず<message>という要素を作成し、その中に意図的に複数のテキストノードと空のテキストノードを追加しています。normalize()を呼び出す前の状態では、これらのノードが個別に存在するため、子ノードの数は4つです。次にnormalize()を実行すると、隣接するテキストが結合され、空のノードが削除されます。その結果、子ノードの数は1つになり、XMLの構造がより簡潔に整理されていることを確認できます。

DOMNotationノード自体は子ノードを持てないため、このサンプルでは動作を分かりやすく示すためにDOMElementを用いて説明しています。

この normalize メソッドは、多くのDOMノードが共通して持つ機能です。サンプルコードでは、子ノードを持てない DOMNotation の代わりに、動作が分かりやすい DOMElement を使って機能を説明しています。normalize() の主な役割は、隣接するテキストノードを1つに結合し、内容が空のテキストノードを削除することです。これによりDOMツリーの構造が整理されます。この処理は、メソッドを呼び出したノード自身だけでなく、その配下にある全ての子孫ノードに対しても再帰的に適用される点に注意が必要です。また、このメソッドは戻り値を返さず、呼び出したオブジェクトの状態を直接変更します。

PHPのintl拡張で文字列を正規化する

1<?php
2
3/**
4 * Unicode文字列を正規化する例を示します。
5 *
6 * この機能を利用するには、PHPの 'intl' 拡張機能が必要です。
7 * キーワード「php normalizer インストール」は、多くの場合、この 'intl' 拡張機能の
8 * インストールを指します。
9 *
10 * `php -m | grep intl` コマンドで intl がインストールされているか確認できます。
11 */
12function demonstrateStringNormalization(): void
13{
14    // 'intl' 拡張機能がロードされているかを確認
15    if (!extension_loaded('intl')) {
16        echo "このコードを実行するには、'intl' 拡張機能が必要です。" . PHP_EOL;
17        echo "お使いの環境に合わせてインストールしてください。(例: sudo apt install php-intl)" . PHP_EOL;
18        return;
19    }
20
21    // 正規化されていない文字列の例 (分解された形式: NFD)
22    // 見た目は「ガ」ですが、内部的には「カ」(U+30AB) + 濁点「゛」(U+3099) で表現されています。
23    $decomposedString = "カ\u{3099}";
24
25    echo "元の文字列: " . $decomposedString . PHP_EOL;
26    echo "元の文字列の長さ (bytes): " . strlen($decomposedString) . PHP_EOL;
27
28    // 文字列が一般的な合成形式 (NFC) になっているかチェックします。
29    // 当然、分解されているため false が返ります。
30    $isNormalizedBefore = Normalizer::isNormalized($decomposedString, Normalizer::FORM_C);
31    echo "正規化前チェック (isNormalized): " . ($isNormalizedBefore ? 'true' : 'false') . PHP_EOL;
32    echo "--------------------" . PHP_EOL;
33
34    // Normalizer::normalize() を使って、文字列を NFC (Normalization Form C) 形式に正規化します。
35    // NFCはWebで一般的に使われる形式で、分解された文字を1つの文字に結合します。
36    $normalizedString = Normalizer::normalize($decomposedString, Normalizer::FORM_C);
37
38    echo "正規化後の文字列: " . $normalizedString . PHP_EOL;
39    echo "正規化後の文字列の長さ (bytes): " . strlen($normalizedString) . PHP_EOL;
40
41    // 正規化後に再度チェックします。
42    // 正常に結合されたため true が返ります。
43    $isNormalizedAfter = Normalizer::isNormalized($normalizedString, Normalizer::FORM_C);
44    echo "正規化後チェック (isNormalized): " . ($isNormalizedAfter ? 'true' : 'false') . PHP_EOL;
45}
46
47// 関数を実行して正規化のデモを行います。
48demonstrateStringNormalization();

このPHPサンプルコードは、Normalizerクラスのnormalizeメソッドを使用して、Unicode文字列の表現を統一(正規化)する方法を示しています。この機能を利用するには、intl拡張機能のインストールが必要です。

コードでは、まず「カ」と濁点「゛」が内部的に別々のデータとして表現されている文字列を例として準備します。見た目は「ガ」ですが、コンピュータ内部では異なる形式で扱われています。

Normalizer::normalize()メソッドは、このような複数のデータで表現された文字を、一般的な1つのデータ表現にまとめる機能を提供します。第1引数に正規化したい文字列を、第2引数に正規化の形式(サンプルではWebで標準的なFORM_C)を指定します。このメソッドは、引数として渡された文字列を正規化した結果を、新しい文字列として返します。戻り値がないわけではなく、処理後の文字列が返却される点が重要です。

この処理により、見た目は同じでも内部データが異なる文字列の表現を統一できます。これにより、文字列の比較や検索といった処理をより正確に行えるようになります。また、補助的に使用されているisNormalized()メソッドは、文字列がすでに正規化されているかどうかを真偽値で確認します。

このサンプルコードを実行するには、PHPの intl 拡張機能が必須です。まず、お使いの環境にこの拡張機能がインストールされているか確認してください。このコードが扱う正規化とは、見た目は同じでも内部的なデータ表現が異なる文字を統一する処理のことです。例えば、1文字の「ガ」と、合成された「カ」+「゛」のような違いを吸収します。このような表現の揺れは、文字列の比較や検索で意図しない不具合の原因となるため、ユーザー入力や外部データを扱う際は特に重要です。正規化によって文字列のバイト数が変わる可能性がある点にも注意しましょう。

関連コンテンツ

関連プログラミング言語