PHP: сравнение URI, которые отличаются процентным кодированием

В PHP я хочу сравнить два относительных URL-адреса на предмет равенства. Уловка: URL-адреса могут отличаться процентным кодированием, например.

  • /dir/file+file vs. /dir/file%20file
  • /dir/file(file) vs. /dir/file%28file%29
  • /dir/file%5bfile vs. /dir/file%5Bfile

Согласно RFC 3986, серверы должны обрабатывать эти URI одинаково. Но если я использую == для сравнения, я получу несоответствие.

Итак, я ищу функцию PHP, которая будет принимать две строки и возвращать TRUE, если они представляют один и тот же URI (без учета закодированных/декодированных вариантов одного и того же символа, шестнадцатеричных цифр в верхнем/нижнем регистре в закодированных символах и + против . %20 для пробелов) и FALSE, если они разные.

Я заранее знаю, что в этих строках только символы ASCII, а не юникод.


person Justin Grant    schedule 08.10.2010    source источник


Ответы (3)


function uriMatches($uri1, $uri2)
{
    return urldecode($uri1) == urldecode($uri2);
}

echo uriMatches('/dir/file+file', '/dir/file%20file');      // TRUE
echo uriMatches('/dir/file(file)', '/dir/file%28file%29');  // TRUE
echo uriMatches('/dir/file%5bfile', '/dir/file%5Bfile');    // TRUE

декодирование URL

person webbiedave    schedule 08.10.2010

EDIT: Пожалуйста, посмотрите на ответ @webbiedave. Его намного лучше (я даже не знал, что в PHP есть функция для этого. Узнавайте что-то новое каждый день)

Вам нужно будет проанализировать строки, чтобы найти что-то, совпадающее с %##, чтобы найти случаи кодирования этих процентов. Затем, взяв номер из них, вы сможете передать его, чтобы chr() для получения символа этих процентных кодировок. Восстановите строки, и тогда вы сможете их сопоставить.

Не уверен, что это самый эффективный метод, но, учитывая, что URL-адреса обычно не такие длинные, это не должно сильно влиять на производительность.

person Jared    schedule 08.10.2010

Я знаю, что эта проблема здесь, кажется, решена webbiedave, но у меня были свои проблемы с этим.

Первая проблема: закодированные символы нечувствительны к регистру. Таким образом, %C3 и %c3 — это один и тот же символ, хотя и разные как URI. Таким образом, оба URI указывают на одно и то же место.

Вторая проблема: папка% 20 (2) и папка % 20% 282% 29 оба являются допустимыми URL-адресами URI, которые указывают на одно и то же местоположение, хотя они являются разными URI.

Третья проблема: если я избавлюсь от символов, закодированных в URL-адресе, у меня будет два местоположения с одним и тем же URI, например bla%2Fblubb и bla/blubb.

Так что же делать? Чтобы сравнить два URI, мне нужно нормализовать их оба таким образом, чтобы я разделил их на все компоненты, urldecode все пути и части запросов за один раз, rawurlencode их и склеил обратно вместе, а затем я мог их сравнить.

И это может быть функция для его нормализации:

function normalizeURI($uri) {
    $components = parse_url($uri);
    $normalized = "";
    if ($components['scheme']) {
        $normalized .= $components['scheme'] . ":";
    }
    if ($components['host']) {
        $normalized .= "//";
        if ($components['user']) { //this should never happen in URIs, but still probably it's anything can happen thursday
            $normalized .= rawurlencode(urldecode($components['user']));
            if ($components['pass']) {
                $normalized .= ":".rawurlencode(urldecode($components['pass']));
            }
            $normalized .= "@";
        }
        $normalized .= $components['host'];
        if ($components['port']) {
            $normalized .= ":".$components['port'];
        }
    }
    if ($components['path']) {
        if ($normalized) {
            $normalized .= "/";
        }
        $path = explode("/", $components['path']);
        $path = array_map("urldecode", $path);
        $path = array_map("rawurlencode", $path);
        $normalized .= implode("/", $path);
    }
    if ($components['query']) {
        $query = explode("&", $components['query']);
        foreach ($query as $i => $c) {
            $c = explode("=", $c);
            $c = array_map("urldecode", $c);
            $c = array_map("rawurlencode", $c);
            $c = implode("=", $c);
            $query[$i] = $c;
        }
        $normalized .= "?".implode("&", $query);
    }
    return $normalized;
}

Теперь вы можете изменить функцию webbiedave на это:

function uriMatches($uri1, $uri2) {
    return normalizeURI($uri1) === normalizeURI($uri2);
}

Это должно сработать. И да, это гораздо сложнее, чем даже мне хотелось.

person Krassmus    schedule 22.01.2018