Блог

09 сентября
2014

Сложности тегирования: от фолксономии к базе знаний

Теги — самый распространенный метод описания контента и ссылок в вебе, страндарт де-факто. Потенциал тегов связывать контент, его авторов и читателей с совершенно разных концов интернета — огромен, а сама идея очень красива. Именно интересу к тегам обязан своим появлением на свет журнал IZTP, которым мы занимались несколько лет назад. Однако с тегами связаны и сложности: на практике они оказываются не слишком эффективным инструментом навигации и организации.

В этой заметке я хочу разобраться в недостатках тегов, как инструмента для описания закладок, и рассказать о том, как мы поправляем это в Channelkit — закладочном сервисе, который помогает закладки не просто хранить, а структурировать.

Теги — уникальная штука

Это очень понятный и простой в обращении инструмент мета-описания информации. Люди, которые ничего не знают об информационной архитектуре и метаданных, легко и с удовольствием добавляют теги к закладкам, не мучаясь выбором «правильной» папки.

Теги действительно помогают при поиске своих закладок. Вам не обязательно запоминать использованные теги, нужный всегда можно отыскать в списке.

Теги имеют очень красивое свойство самоорганизовываться. После определенного количественного порога у вас сам собой выстраивается персональный «тезаурус» тегов, которые вы используете часто и друг с другом. Более того, такой тезаурус выстраивается и для всех пользователей с доступными публично закладками. То есть фактически, теги формируют динамический рубрикатор для поиска релевантной для вас информации от других пользователей — фолксономию.

Но все это имеет и обратную сторону

Простота создания нового тега оборачивается большим количеством лишних тегов: тегов-синонимов, тегов с опечатками. У тезауруса образуется «длинный хвост» тегов, используемых очень редко.

Чтобы закладку полноценно описать для будущего поиска, требуется несколько тегов. В итоге, активный пользователь довольно быстро добирается до 100 тегов, а такой список уже довольно непросто использовать в качестве навигационного меню.

Вводя тег для поиска закладок, сохраненных другими пользователями, вы получаете популярные материалы, которые по мнению большинства соответствуют этому тегу — то есть результат очень «средний», а значит, не очень точный. Более точные термины — уже более спорные или имеют много синонимов.

В итоге тегов много, а точности — мало

Частично эти проблемы можно решить на уровне интерфейса. Например, количество опечаток можно сократить подсказками по мере ввода: предлагать популярные теги для новых пользователей и теги из персонального списка для опытных.

Поиск и фильтрацию закладок по тегам можно упростить, если сократить первоначальный список тегов до самых частотных, а когда пользователь выберет нужный, отфильтровать по нему не только закладки, но и сами теги, чтобы продолжить фильтрацию, последовательно сужая выбор. Тогда пользователю не придется водить глазами по длиннющему списку, чтобы найти нужный ему тег.

Если реализовать это, закладочные сервисы уже станут на порядок удобнее. Но в тегировании есть и более фундаментальный изъян: отсутствие единой и последовательной системы тегирования.

Фундаментальная проблема фолксономии

В большинстве современных закладочных сервисов теги — единственный инструмент описания, и к нему нет никакой инструкции и ограничений. Делай, что хочешь. Это легко и приятно в начале, но сложно и муторно потом, когда тегов становится много: либо в них нет никакой логики, либо ее очень трудоемко поддерживать, потому что в явном виде она нигде не записана, только у вас в голове.

Например, вы дизайнер и описывая статью вам хотелось бы указать, что она относится к теме «дизайн» и уточнить, что речь идет о «фирменном стиле». Когда вы сохраните похожую статью в следующий раз, вам нужно будет не полениться уточнить, что это тоже «дизайн» (этот тег отныне будет относиться к доброй половине ваших ссылок), не использовать «фирменные стили» или «брендинг» вместо «фирменный стиль», и не добавить в пылу тег «графический дизайн». Иначе вам придется либо отредактировать еще и предыдущую ссылку, либо смириться с тем, что теги «графический дизайн» или «брэндинг» уже не помогут вам ее отыскать, хотя, очевидно, они к ней относятся.

Скорее всего, вы предпочтете не редактировать описание добавленной в прошлый раз закладки, никто не хочет делать лишнюю работу. Штук 100 таких закладок, и вы получаете довольно бессмысленную кучу ссылок и столь же бессмысленную кучу тегов, в которых уже нет никаких сил разбираться. На наш взгляд, это основная причина, почему закладочные сервисы забрасываются пользователями. А жаль, потому что ваши ссылки — во многом ваше богатство, ну или хотя бы возможность похвастаться экспертизой и насмотренностью по любимым темам.

Решение

В общем, теги — очень классный, еще до конца не исследованный инструмент. Но не очень правильно использовать его для описания всех параметров закладки, хотя бы исходя из того, что большой список тегов значительно менее удобней короткого. Сейчас мы работаем над несколькими способами, как этого добиться.

  1. Темы и категории

    Для начала стоит посмотреть на то, как теги в реальности используются. Большинство тегов, как правило, тематические. То есть, они указывают на темы, к которым относятся закладки: о чем эта закладка. Те самые «дизайн», «графический дизайн» и «фирменный стиль».

    Другая сторона описания закладки — это ее назначение, что вы сохраняете. Самые частотные теги такого типа на Channelkit: tools, books, blogs, apps, software.

    Еще более «техническая» категория, о которой пользователи сообщают с помощью тегов — формат контента: статьи, видео, картинки, аудио.

    Если обобщить и сопоставить это с тем, из чего может состоять «знание» на какую-то тему, получается, что сохраняя ссылку, вы можете сохранять:

    • Сайт целиком, ресурс (блог, новостной сайт или веб-сервис)
    • Контент (статью, видео, аудио, PDF)
    • Объект реального или понятийного мира: книги, люди, компании, места, события, понятия, технологии.

    Эта классификация, как и любая другая — субъективна и условна. Тем не менее, мы убеждены (и мы видим этому подтверждения), что в ней есть функциональное, удобное для работы зерно. То есть, если мы выберем несколько «общечеловеческих» категорий и дадим возможность вручную создавать более специализированные категории, наши пользователи получат дополнительный смысловой слой к сохраняемой им информации и одновременно разгрузят список «тематических» тегов. Это первый шаг в сторону полноценной базы знаний.

  2. Тезаурус

    Возвращаясь к тематическим тегам, еще раз обращаю ваше внимание, что такие теги (темы) вкладываться друг в друга иерархически: у часто употребляемых тегов, есть более редкие, но связанные с ними тегами. Таким образом выстраивается система уровней тегов: от наиболее частотных к наиболее редким. В многопользовательских системах, как правило, самыми частотными тегами становятся самые «общие» теги, формирующие тематические домены.

    Иллюстрации из уже ставшего классическим исследования данных Delicious «Emergence of Consensus and Shared Vocabularies in Collaborative Tagging». На Designthe.INFO есть фрагменты из него.

    У индивидуального пользователя частота употребления и связи тегов друг с другом создают индивидуальную иерархию на более низком уровне.

    Граф персональных тегов закладок, собранных на Delicious пользователем-визуализатором Marc Middulph

    Проблема в том, что для поддержки такой иерархической системы, пользователю во-первых, придется постоянно держать ее в голове, а во-вторых, для каждой закладки обозначать теги всех уровней вложенности: «дизайн» → «графический дизайн» → «фирменный стиль». Это сложно и трудозатратно.

    В результате получается, что какая-то иерархия тем действительно выстраивается, но она совершенно не гарантирует вам, что каждая закладка будет вписана в эту иерархию, и вы сможете найти ее, спускаясь по тегам сверху вниз.

    Теги хороши тем, что не ограничивают пользователя правилами и жесткой иерархией — это «неконтролируемый словарь». Мы предлагаем оставить теги таким же гибким инструментом, но добавить элемент контроля на уровне структуры: отдельный интерфейс, где можно вкладывать теги друг в друга и «склеивать» синонимы: например «фирменный стиль», «фирменные стили» и «identity».

    Кроме этого, в эту же систему тематических тегов нужно будет включить названия каналов и групп, которые уже сейчас позволяют пользователям управлять вложенностью в явном виде. Ведь канал «дизайн-студии», находящийся в группе «дизайн» — тоже тег, однозначно находящийся выше уровнем. Значит, добавляя туда закладку, нет необходимости тегировать ее словом «дизайн», Channelkit догадается сам.

    Тезаурус, в котором одни термины связаны с другими иерархическими отношениями — еще один, более профессиональный инструмент базы знаний.

  3. Онтология

    Онтология — еще более абстрактная структура данных, которая не без помощи социальных сетей постепенно перестает быть слишком сложной для понимания. По сути, этот тот же тезаурус, только с более сложной системой отношений между терминами.

    Например, вы сохраняете в Channelkit какой-нибудь блог. У блога, так как это отдельная категория, есть уникальный набор полей для заполнения. Одно из них — «contributor». В него вы вводите имя человека, которое считается тегом. При этом, Channelkit знает, что значения, которые может принимать поле contributor — это имена людей. Соответственно, в дополнение к закладкам у нас формируется справочник персон, которые так или иначе связаны с нашими закладками. То же самое можно сделать с географическими объектами или компаниями.

    Такие умные теги (возможно) относятся к категориям закладок, что тоже довольно удобно: по тегу «Steve Jobs» мы получим и его карточку с основными данными «персоны», и все закладки, с ним связанные.

Звучит сложно, но вы уже делаете что-то подобное в Facebook, когда, например, отмечаете свою компанию, заполняя поле «Company» в «Occupation». Для этого, сначала нужно завести профиль компании в определенной категории.

Как мы будем это использовать?

И категории, и тезаурус и онтологии — сложны для понимания, но понимать их нет необходимости. Это работа Channelkit, а пользователь пусть делает то, что он делает и так: отмечает ту информацию, которая кажется ему важной. Наша задача — помочь избежать ему лишей работы, напомнить добавить что-то важное и придать закладкам понятную структуру, чтобы они не теряли смысла, когда их становится слишком много.

В сентябре мы постепенно начнем добавлять в Channelkit эти возможности и рассказывать о результатах. Ждите обновлений и новостей.

Ссылки