XML атрибуты. XML Атрибуты для Метаданных

Здравствуйте, уважаемые посетители сайта сайт! Продолжим тему о языке разметки XML и рассмотрим использование атрибутов. Атрибуты в XML элементах могут присутствовать, также как в HTML. Атрибуты обеспечивают дополнительную информацию об элементе.

XML Атрибуты

В HTML атрибуты обеспечивают дополнительную информацию об элементах:

XML Атрибуты Должны Заключаться в Кавычки

Значения атрибутов в xml всегда должны быть заключены в кавычки. Могут использоваться как одинарные, так и двойные кавычки. Для указания пола элемента человек (person) можно написать так:

Если значение атрибута само по себе содержит двойные кавычки, вы можете использовать одинарные кавычки, как в этом примере:

XML Элементы против Атрибутов

Взгляните на следующие примеры:

Виктория
Петрова

female
Виктория
Петрова

В первом примере пол (sex) является атрибутом. В последнем, sex – это элемент. Оба примера предоставляют одну и ту же информацию.

Нет правил о том, когда использовать атрибуты, а когда элементы. Атрибуты удобны в HTML. В XML я советую их избегать. Используйте вместо них элементы.

Мой Любимый Способ

Следующие три XML документа содержат в точности одинаковую информацию:

XML атрибут date используется в первом примере:

Расширенный элемент date используется в третьем: (ЭТО МОЙ ЛЮБИМЫЙ СПОСОБ):



10
01
2008

Петя
Света
Напоминание

Избегать XML Атрибуты?

Некоторые из проблем с использованием xml атрибутов:

  • атрибуты не могут содержать несколько значений (элементы могут)
  • атрибуты не могут содержать древовидные структуры (элементы могут)
  • атрибуты сложнее расширить (для будущих изменений)

Не делайте подобным образом:

to="Вася" from="Света" heading="Напоминание"
body="Не забудь мне позвонить завтра!">

XML Атрибуты для Метаданных



Вася
Света
Напоминание
Не забудь мне позвонить завтра!


Света
Вася
Re: Напоминание
ОК

Атрибуты id выше используются для идентификации разных заметок. Они не являются частью заметки самой по себе.

Что я пытаюсь здесь сказать – метаданные (данные о данных) следует хранить как xml-атрибуты, а сами данные хранить как элементы.

Спасибо за внимание!.

Цель данного урока:

  1. БИ должен знать формат записи языка XML
  2. БИ должен уметь оформлять документ в виде XML - кода
  3. БИ должен знать типы данных и уметь ими пользоваться

Примечание: Язык XML не настолько краток, как мы описали его в данном уроке. Мы рассматриваем только те возможности языка XML, которые будут использоваться в системе ODA-TM.

XML. Основа

XML был создан для структурирования, хранения и транспортировки информации.

Следующий пример "Записка друга к другу", имеет XML вид:

Николаю Ивана Напоминание Надеюсь, ты не забыл о нашей встрече

Визуально можно представить этот код в следующем виде (Рис.1.).

Код имеет отправителя и получателя информации, он также имеет заголовок и тело сообщения.

Он предназначен для того, чтобы его кто-то обработал, отправил и отобразил.

Но, тем не менее, этот документ XML не делает ничего. Это просто информация, завернутая в теги.

XML – дерево

XML имеет древовидную структуру. В документе всегда имеется корневой элемент (инструкция к дереву отношения не имеет). У элемента дерева всегда существуют потомки и предки, кроме корневого элемента, у которого предков нет, а также тупиковых элементов (листьев дерева), у которых нет потомков. Каждый элемент дерева находится на определенном уровне вложенности (далее - «уровень»). У элементов на одном уровне бывают предыдущие и следующие элементы.

С помощью XML придумывайте собственные теги

Для создании тегов (дескрипторов, элементов) стандартного формата не существует.

Язык XML не имеет предопределенных тегов.

  • XML позволяет автору определить его собственные теги и его собственную структуру документа.
  • XML используется для передачи данных
  • XML представляет собой программно-аппаратно независимый инструмент для переноса информации.
  • XML, теперь так же важен для сети как HTML
  • XML является наиболее распространенным инструментом для передачи данных между разными приложениями
  • XML используется во многих аспектах веб-разработки, часто для упрощения хранения данных и обмена ими

XML синтаксис

Синтаксис правил XML очень просто и логичен

  • Все элементы XML должны иметь закрывающий тег
  • XML элементы должны быть правильно вложены (один в другой, и, ни в коем случае, не пересекаться)
  • XML – документы должны иметь корневой элемент (XML-документы должны содержать один элемент, который является родителем всех других элементов. Это элемент называется корневым элементом.
  • Значение XML – атрибута должно быть заключено в кавычки.

Комментарии

Если надо сделать какой-то фрагмент документа XML вообще "невидимым" для программы-анализатора, то его можно оформить как комментарий, записав перед ним символы < !-- , а после него - символы --> с двумя дефисами подряд.

Например:

< !-- Это комментарий -->

Программа-анализатор пропустит всю эту конструкцию, даже не "заглянув" в нее.

Такой синтаксис комментария накладывает на него два ограничения:

  • в комментарии нельзя записывать два дефиса подряд;
  • комментарий нельзя завершить дефисом.

XML-элементы

Элементом XML является все, начиная от начального тега элемента и заканчивая конечным.

Элемент может содержать:

  • другие элементы
  • текст
  • атрибуты
  • или сочетание всех выше...

XML Правила именования

XML элементы должны следовать этим правилам именования:

  • Имена могут содержать буквы, цифры и другие символы
  • Имена не могут начинаться с номера или знака препинания
  • Имена не могут содержать пробелы

Атрибуты

Атрибуты предоставляют дополнительную информацию об элементах, которая не является частью данных.

В приведенном ниже примере, тип файла не имеет отношения к данным, но важен для программного обеспечения, которое может манипулировать элементом:

computer.gif

XML атрибуты должны быть заключены в кавычки

Значения атрибутов всегда должны быть в кавычках. Либо одинарные или двойные кавычки могут быть использованы. Пример: для определения пола человека, элемент может быть записан так:

Если значение атрибута само содержит двойные кавычки можно использовать одинарные кавычки, как в этом примере:

или вы можете использовать символьные объекты: & &

Несколько примеров использования типа данных Дата

Дата как атрибут

Tove Jani Reminder Don"t forget me this weekend!

Дата как элемент

10/01/2008 Tove Jani Reminder Don"t forget me this weekend!

Дата как элемент расширенный

10 01 2008 Tove Jani Reminder Don"t forget me this weekend!

Атрибуты метаданных

Эти идентификаторы могут быть использованы для определения XML-элементов.

Пример:

Tove Jani Reminder Don"t forget me this weekend! Jani Tove Re: Reminder I will not

Данные о данных, должны быть сохранены в виде атрибутов, а сами данные должны храниться в качестве элементов.

XML. Тип данных

Встроенные простые типы

Дата и время

  • dateTime содержит дату и время в формате CCYY-MM-DThh:mm:ss
  • duration - представляет временную длительность, которая выражена компонентами григорианских дней, часов, минут и секунд.

Например: запись P1Y2M3DT10H30M45S означает один год (1Y), два месяца (2M), три дня (3DT), десять часов (10H), тридцать минут (30M) и 45 секунд (45S).

Запись может быть сокращенной P120M означает 120 месяцев, а Т120М - 120 минут.

  • time содержит время в обычном формате hh:mm:ss
  • date содержит дату в формате CCYY-MM-DD
  • gYearMonth выделяет год и месяц в формате CCYY-MM
  • gYear означает год в формате CCYY
  • gMonthDay содержит месяц и день в формате MM-DD
  • gDay день месяца в формате DD
  • gMonth месяц в формате ММ

Строки символьные

string - основной символьный тип.

Строка символов в виде последовательности символов Unicode , включая символы пробела, табуляции, возврата каретки и перевода строки.

  • normalizedString - подтип типа - это строки, не содержащие символов перевода строки "\n", возврат каретки "\r" и горизонтальной табуляции "\t".
    • token - подтип типа normalizedString- нет, кроме того начальных и завершающих пробелов и несколько подряд идущих пробелов.
      • language - подтип token, определен для записи названия языка согласно рекомендации RFC 1766 , например, ru, en, de, fr.
      • NMTOKEN - подтип token, используется только в атрибутах для записи их перечисляемых значений.
      • Name - подтип token, составляют имена XML - последовательности букв, цифр, дефисов, точек, двоеточий, знаков подчеркивания, начинающиеся с буквы (кроме зарезервированной последовательности букв X, x, M, m, L, l в любом сочетании регистров) или знака подчеркивания. Имена, начинающиеся со строки, xml , используются самой спецификацией XML.
        • NCName - подтип name, не содержащий двоеточие. Определены три подтипа: ID, IDREF, ENTITY

Двоичные типы

  • boolen - двоичное, логическое. Принимает значения: True или False (1 или 0)
  • base64Binary - двоичные целые числа в кодировке Base64
  • hexBinary - двоичные целые числа в шестнадцатеричной форме без всяких дополнительных символов

Вещественные числа

  • decimal составляют вещественные числа, записанные с фиксированной точкой: 123.45, -0.48747798 и т.д.
  • double и float типы соответствуют стандарту IEEE754-85, записываются с фиксированной или плавающей точкой.

Целые числа

  • integer - основной целый тип, содержащий числа с нулевым порядком, понимается как подтип decimal
  • number - определяет число (без ограничений на количество цифр); может содержать знак, дроби, а также показатель степени. Значения изменяются

от 1.7976931348623157Е+308 до 2.2250738585072014Е-308

Как и в HTML, XML элементы могут иметь атрибуты. При этом значение атрибутов в XML и правило их создания во многом похожи на .

Атрибуты предоставляют дополнительную информацию об элементе.

XML атрибуты

В HTML атрибуты предоставляют некоторую дополнительную информацию об элементе:

Атрибуты часто предоставляют информацию, не являющуюся частью данных. В примере ниже тип файла не зависит от данных, но эта информация может быть важна для приложений, которые будут манипулировать этим элементом:

computer.gif

XML атрибуты должны заключаться в кавычки

Значение атрибута всегда должно заключаться в кавычки. Это могут быть либо двойные, либо одинарные кавычки. Например, пол персонажа можно записать так:

либо так:

Если значение атрибута само содержит двойные кавычки, то можно использовать одинарные кавычки. Например:

либо использовать символы сущностей:

XML элементы или атрибуты

Посмотрите на следующие примеры:

Пример №1

Anna Smith

Пример №2

female Anna Smith

В первом примере пол указан в атрибуте. Во втором, пол записан, как элемент. Оба примера предоставляют одну и ту же информацию.

Нет правил, регулирующих то, когда использовать атрибуты, а когда элементы. Атрибуты широко используются в HTML. В XML, на мой взгляд, лучше их избегать, и вместо них использовать элементы.

Что лучше?

Следующие три XML документа содержат совершенно одинаковую информацию:

Дата записана, как атрибут :

Tove Jani Напоминание

Дата записана, как элемент :

10/01/2008 Tove Jani Напоминание Не забудь обо мне в эти выходные!

Дата записана, как расширенный элемент (На мой взгляд наилучший вариант):

10 01 2008 Tove Jani Напоминание Не забудь обо мне в эти выходные!

Избегать XML атрибуты?

При использовании атрибутов возникают некоторые проблемы:

  • атрибуты не могут содержать множественные значения (элементы могут)
  • атрибуты не могут содержать древовидные структуры (элементы могут)
  • атрибуты сложно расширять (для будущих изменений)

Никогда не используйте следующие конструкции:

XML атрибуты для метаданных

Иногда элементам присваивают идентификаторы. Эти идентификаторы используются для идентификации XML элементов в точности также, как идентификационные атрибуты в HTML. Следующий пример демонстрирует это:

Tove Jani Напоминание Не забудь обо мне в эти выходные! Jani Tove Re: Напоминание Не забуду

В приведенном примере атрибут id используется для идентификации разных заметок. Эта информация не является частью самой заметки.

Главная мысль всего сказанного это то, что метаданные (данные о данных) следует записывать, как атрибуты, а сами данные, как элементы.

С давних пор стандарт предписывает для вставки обычных кавычек в HTML -текст применять конструкцию " Ибо внутри тегов кавычки "" используются для обозначения атрибутов.

Однако, мне пока не попадался броузер, который бы не показал как кавычку простой символ " ВНЕ каких-либо тегов. Так скажите, уважаемые коллеги, может быть, применение " вне тегов есть попросту никому не нужное занудство? Можно спокойно и не мудрствуя писать "? Особенно в текстах, где кавычек много, а соблюдение строгих дизайнерских правил (насчет правильного употребления национальных кавычек) неактуально.

ИМХО, многие так и делают... но не совсем понятен вопрос: если вы понимаете, что по стандартам нужно кавычки писать как ", но лениво, притом что куча сайтов работает и так, то чего вы ожидаете услышать? Думаю, что о том, будет ли отображение кавычек поддерживаться в новых версиях броузеров, не знает никто, поэтому скороее всего можно дать очевидную рекомендацию: не хотите проблем в дальнейшем на 100% - держитесь стандартов:) Но это вы и так знаете. Или вы ждете подтверждения: да занудство это все, забей, и через 10 лет все будет так же, я(Microsoft,Mozilla и.т.д) гарантирую?

Lynn «Кофеман»[досье]
да, кстати... сейчас полез читать, нигде не утверждается что кавычки нужно представлять в виде "
http://www2.stack.ru/~julia/HTML401/charset.html :

Некоторые авторы используют ссылку на символьную сущность """ для кодирования экземпляров двойных кавычек ("), поскольку этот символ может использоваться для разделения значений атрибутов.

про то что, нужно использовать именно entity говорится только про <, > и &:

Если автор хочет поместить в текст символ "<", во избежание возможной путаницы с началом тега (метка начала тега) он должен использовать ссылку "<" (десятичный код ASCII 60). Точно так же во избежание проблем со старыми версиями пользовательских агентов, некорректно принимающих символы ">" за окончание тега (метка конца тега), следует использовать ссылку ">" (десятичный код ASCII 62).

Во избежание путаницы со ссылками на символы (метка начала ссылки на символ) вместо символа "&" следует использовать ссылку "&" (десятичный код ASCII 38). Кроме того, ссылку "&" следует использовать и в значениях атрибутов, поскольку ссылки на символы внутри значений атрибута CDATA разрешены.

А вот как раз и ожидаю что-то вроде ответа Lynn: что такого стандарта собственно нет. Мне это даже в голову не пришло - моя информация из популярных учебников и из соображений "все так делают".

Или другой вариант: а вот если следовать новым стандартам, с которыми я в своей практике не сталкивался - вроде xhtml (именно вроде, xhtml я проверил), то такой фокус не пройдет. Стало быть, не надо создавать проблем с переносимостью написанного HTML -кода.

Ну или наконец: вы-то сами как делаете?

&, кстати, порождает аналогичный вопрос. В приведенном выше документе говорится "во избежание путаницы". Но путаница возможна, только если за & следует один из предусмотренных кодов. А если это, скажем, URL типа "..../script?A=1&B=2" ? Рискую ли я чем-либо, если по ошибке в качестве href указал такой URL (который, разумеется, при тесте работает корректно)? Чем-либо кроме той крайне маловероятной ситуации, что лет через 10 (когда сайт устареет или будет уже десять раз переписан) появится сущность с экстравагантным именем &B без завершающей; ? Иными словами - насколько тщательно надо проверять все подобные случаи?

Даниил, если вы уверены что с существующими кодами у вас проблем не возникает - то вы можете писать и просто &. Если в дальнейшем и появится новый код - то он, думаю, будет объявлен явно не в спецификации HTML 4.01, следовательно на нормально объявленный документ влиять не должен. Или вы расчитываете обеспечить себе поддержку будущих стандартов путем простого изменения схемы документа?

Даниэль Алиевский[досье]
В XML обычная кавычка как текст тоже никакой проблемы не представляет (соответственно и в XHTML, конечно). IMHO кавычки обычно переводят в " лишь по одной причине — не хочется писать две функции для приведения текста к безопасному виду при подстановке в XML/ HTML /XHTML.

Понравилось? Лайкни нас на Facebook