ADS — ALSM Design Studio
  Портфолио   Эволюция   Креатифф  

Публикации

 

О релевантности в фолксономических и таксономических системах

Давайте сразу определимся с понятиями, чтобы все незнакомые слова стали понятны.

Релевантность — соответствие результатов запросу (например, поисковому).

Таксономия — иерархическая система классификации информации, при которой каждый следующий уровень (уровни) имеет один предыдущий. Так называемое «дерево». Используется, например, для классифиции всех живых организмов. Империя, царство, подцарство, тип, класс, семейство...

Фолксономия — система классификации информации, основанная на описании конкретного объекта. Всем известные ключевые слова в описании фотографий.

Вот теперь можно понять о чем пойдет речь. Здесь я поднимаю вопрос о проблеме повышения релевантности в фолксономических системах, которые в последние два года получилди широкое распространение в Интернете и являются неотъемлемой составляющей WEB 2.0.

Рассмотрим простейший пример фолксономического описания объекта.

Мои интересы: читать, книгисмотреть фильмы, музыка, девушкитусовка, гулятьавтомобили, компьютеры, Apple.

Тысячи подобных применений фолксономии можно увидеть на блогах, сайтах знакомств и прочих ресурсах. В чем смысл? Вот в чем: если раньше человеку необходимо было из длинного фиксированного списка указывать свои интересы (которых в этом списке могло вообще не оказаться), то теперь он пишет через запятую то, что его интересует. Все это необходимо для поиска людей с похожими интересами. В первом случае скрипт генерирует список из полей, где значение переменной совпадает с указазнными. Во втором проходит строгий поиск по строковым переменным. И выводится список. Такой же? 

А теперь посмотрим на проблему с другой стороны. Если в первом случае релевантность равна 100% (если конечно пользователь указал все свои интересы), то во втором она достаточно мала. Вместо «читать, книги» можно написать «читать книги». И все рушится. Запятой нет, а следовательно, и поисковый ответ окажется пустым. То есть человек, любящий читать книги, не найдет того, который люит читать и книги. Для нас разницы нет, для скриптов она фатальна. А вместо «смотреть фильмы» можно просто написать «фильмы» или «кино». Результат будет такой же. Нулевой.

Так что? Теперь посмотрим что с таксономией.

Город Москва, школа №2927, класс 12 «Е»

Вот то, что получится, если использовать ее. Вы не раз сталкивались на различных сайтах с  выпадающими списками, где сначала надо указать, например, город, потом школу, потом свой класс. Удобно, быстро, понятно. Такой подход не позволит указать город «Moscow», школу, как «2927» (то есть без названия учреждения, так как может быть еще и лицей, и гимназия), класс как «12е». Релевантность близка к 100%. Почему не равна? Потому что города или школы может не оказаться в списке. В этом случае ее необходимо добавить. Здесь надо действовать аккуратно, так как ее может не быть только в ожидамеой части списка. Нет поля «школа 1599», есть «лицей 1599». И добавлять поле «школа 1599», значит рушить всю таксономическую систему и идти к фолксономии с ее нерелевантным поиском. Причем если и «кино», и «фильмы» напишут большое количество людей (а значит с кем сходить в кинотеатр мы точно найдем), то при ограниченности учеников школы, пользующихся интернетом, их просто напросто поделят пополам бездушны скрипты сайта.

И тут уже возникает в голове такая мысль, как перекрестный запрос. А что если указать в интересах: кино, фильмы, смотреть кино, смотреть фильмы? Да, мы найдем гораздо больше людей, но все равно не всех. Потому что всегда найдется парочка (если не сотня) «крутых», который напишут «кинцо посмотреть» или еще хуже «люблю посмотреть кинцо под пиво». И таких личностей при одном запросе найти никак не удастся. Столь богат русский язык, что одну мысль можно выразить десятками словосочетаний.

Поэтому и разрабротчикам скриптов, и пользователям интернет-сервисов необходимо учитывать все вышесказанное.

То есть, ключевые слова описывать одним словом, максимум двумя. Самыми распространенными. Строго разделять запятыми. Если необходимо указать, например автора и название книги, то пишем сначала название, потом автора, через запятую.

Разработчки же должны учитывать не только разделение по запятым, но и по пробелам, и по точке с запятой. Вылезут ненужные ответы, но количество нужных прибавится.

В идеале же (по крайней мере на сегодняшний момент) составить список (ну пусть из 1000—2000) самых распространенных ключевых слов и при вводе каждой буквы выдавать соответствующие слова. И не будет соблазна написать «кинцо» вместо «кино».

Возвращаться же к таксономии в случае списков интересов бессмысленно. Человеку легче написать список самому, чем тыкать галочки у знакомых слов. И пусть он будет гиперудобным, выпадающим, многоуровневым и пр., но это не заменит ручной ввод. 

 

← Назад к Публикациям






© ADS - ALSM design Studio, 2007. All rights reserved.
         Достал черный цвет?


© ALSM Design Studio, 2007

Электронная почта по всем вопросам: