Сегодня 22.11.2024 Вы зарегистрированы в системе под именем ANONYMOUS

Rambler's Top100
Начало
Обо мне
Моя семья и звери
Статьи
Проекты
Стихи
Фото-галерея
Досуги
Былое и думы
Универсальная Самообучающаяся Экспертная Система
Мудрости
Приколы
 
Новости
Карта сайта
Все материалы
Обсуждение
Опросы
 


КиноНавигатор поможет выбрать фильм, если не знаешь, что посмотреть.
Персональный сайт Андрея Акопянца  >  Статьи  >  Интернет-технологии и связанные с этим вопросы  >  О конкретных системах и компаниях

   

Дрессура собаки 'RUS' , или РУНЕТ на вынос.

Статья посвещена выходу новой версии поисковика "Апорт", а так же интеграции Апорта и каталога АУ. Кроме репортажа с мероприятия, содержит размышления о бизнес-идеях, стоящих за этим объединением, а так же о поисковиках вообще.
Написана осенью 1999г., опубликована в Компьютерре.

;;;;;;;;;;;;;;;;;

15 сентября в плавучем ресторане "Витязь", что стоит на Москве-реке напротив Киевского вокзала, состоялась пресс-конференция компаний Агама и WebTech Information systems (нового владельца каталога АУ!, ныне @RUS).

Как было сказано в приглашении, задачей пресс-конференции было "анонсировать участие ``Апорта'' и ``@Rus-Ау!'' в двух международных выставках, которые пройдут осенью этого года: Fall Internet World'99'' (Нью-Йорк) и ``Интернетком'99'' (Москва)".

Но повод был сугубо формальный. На самом деле пресс-конференция была посвящена новой версии поисковой машины Апорт-2000, и бизнес-стратегии альянса Агамы и WebTech. Объединяют теперь эти две компании не только кинологическая символика (@RUS - читать как ``собака РУС'', а АПОРТ - соответственно, собачья команда), но и общий председатель совета директоров - г-н. Джозеф Авчук, представляющий западных инвесторов этого альянса.

АПОРТ-2000 - мы впереди планеты всей

Основной тезис выступления Евгения Киреева - генерального директора компании "Агама" состоял в том, что в поисковой машине АПОРТ-2000 реализована технология, по ряду ключевых параметров превосходящая всех имеющихся на сегодняшний день конкурентов, как российских, так и западных.

1. АПОРТ-2000 умеет переводить с русского на английский и обратно не только запросы и результаты поиска, но и веб-сайты, на которые попадает ищущий!

Таким образом, он дает возможность русскоязычному пользователю, не владеющему английским языком, искать информацию на западных сайтах, и, что более важно, англоязычному пользователю искать информацию в РУНЕТе. В качестве переводчика используется серверная версия он-лайн переводчика компании ПРОмт, с которым Агама давно сотрудничает.

2. АПОРТ теперь знает, что такое сайт, и работает в терминах веб-сайтов, а не просто отдельных документов. В этом ему помогает каталог @RUS, механизмы регистрации сайтов самого Апорта, и ряд эвристик, которые в большинстве случаев позволяют понять, где в URL заканчивается адрес сайта, и начинается адрес конкретного документа.

Это дает возможность сразу увидеть аннотацию сайта, и понять - туда ты попал или нет. Кроме того, поскольку в каталоге сайты рубрицированны по содержательным категориям, это дает возможность искать с указанием категории, что сильно ускоряет поиск и улучшает его качество.

Некоторые западные поисковые машины также умеют группировать информацию по сайтам, но все они считают сайтами доменные имена, а это очень часто не так. В результате такая группировка зачастую лишается смысла. По данным АПОРТа, только 28% индексированных сайтов имеют собственные доменные имена, а остальные называются как-то вроде www.chat.ru/~vasya.

3. АПОРТ активно использует ссылки, встречающиеся в документах. Это позволяет ему пополнять свою базу сайтов и документов, не индексируя их. Дело в том, что тексты на ссылках (и их ближайшем контекстном окружении) как правило, адекватно отражают содержание того документа (сайта), на который ссылаются.

Кроме того, наличие ссылок используются для определения значимости сайта. Для сайтов ведется некоторый аналог "индекса цитируем ости", используемый при сортировке результатов запросов.

4. В работе поисковой машины важен не столько поиск, сколько сортировка результатов. Если искомый документ окажется на 123 странице выдачи, то практической пользы от этого факта не будет никакой - это все равно, что если бы он не нашелся вовсе.

При сортировке результатов АПОРТ-2000 используется очень много параметров и содержательных эвристик. Например, если запрос состоит из нескольких слов, то приоритет получаю те документы, где эти слова встречаются рядом. При прочих равных приоритет получают более свежие документы. Слова имеют разный вес в зависимости от того, где они встретились - в заголовках, мета-тегах и др., и даже от того, какой цвет, выделение и размер шрифта они имеют. Кроме того, учитываются не только текст документа, но и тексты ссылок на этот документ (с высоким приоритетом), "индекс цитируемости" как самого документа, так и сайта, на котором он лежит, и еще ряд параметров. Все это сводится воедино некоторой функцией, определяющей порядок документов в результатах поиска.

Все это заметно повышает осмысленность и качество выдачи системы.

5. АПОРТ традиционно выделялся среди конкурентов удобной формой выдачи результатов. В версии АПОРТ-2000 это свойство еще усилено. Выдача сделана еще более компактной и информативной, но подробно описывать мы ее тут не будем.

6. АПОРТ-2000 умеет с высокой точностью (до форматирования и шрифтовых выделений) реконструировать документы из своей базы . Это полезно в том случае, если недоступен сервер, или документ с него уже удален. Таким образом, машина поиска начинает выполнять функцию "резервного копирования" сети. Причины исчезновения из сети сайтов и документов могут быть разные, и в целом ряде случаев наличие такого "бэкапа" является социально значимым.

7. АПОРТ-2000 работает в несколько раз быстрее за счет улучшения структур хранения и алгоритмов поиска информации. Кроме того, его архитектура сделана масштабируемой, и допускающей неограниченное увеличение производительности путем добавления дополнительных компьютеров.

Желающие убедиться во всем этом лично могут сходить по адресу ......., где выложена бэта-версия АПОРТ-2000 с не очень большой, но вполне представительной тестовой базой.

РУНЕТ на вынос.

Как давно уже предрекает мой коллега Анатолий Левенчук в рубрике "Либертариум", в российский Хай-Тех вообще и в Интернет в частности пошли иностранные деньги. Интеллектуальный потенциал - это то немногое, что в России еще не до конца куплено и не разворовано. Теперь очередь дошла и до него.

Недавно для одного проекта я нанимал программистов. В первую очередь, естественно, я пошел по знакомым. И с удивлением выяснил, что практически все они работает на американцев непосредственно или на американские деньги! Надо ли говорить, что мой проект так же ориентировался на иностранные деньги...

Назвать эти деньги инвестициями пока нельзя. Это, как правило, минимальная подкормка на уровне покрытия текущих затрат. Люди, которые эти деньги вкладывают, занимаются своего рода "скваттерством" - захватом участков, на которых может оказаться золото. Но они ведь надеются, что золото там есть! И в этом случае инвестиции действительно пойдут.

Тем не менее, чтобы вкладывать деньги, даже маленькие, нужны потенциально доходные бизнес-идеи. А с ними в Рунете дефицит. Главная проблема заключается в том, что в Рунете просто очень мало денег. Весь рекламный потенциал Рунета оценивается сегодня в 50-100 тысяч долларов в месяц! Меньше, чем одного средней популярности американского сервера... И на этом узком рыночке уже толкутся пять-шесть-десять всем известных игроков.

А где есть деньги - известно... Деньги есть на Западе (на Востоке они впрочем, тоже есть. На ближнем, и даже на дальнем. Запад - это такая идиома для обозначения богатой заграницы, не имеющая ничего общего с географией).

В этом смысле бизнес - идея альянса, как я ее понял, проста до гениальности.

Чем вообще торгуют поисковые машины и каталоги? Они торгуют ЧУЖИМ КОНТЕНТОМ.

_А альянс АПОРТ+@RUS должен стать основным продавцом русскоязычного контента, т.е. РУНЕТа как такового, для англоязычной аудитории_.

Именно на это, похоже, направлены основные усилия альянса - англоязычная версия каталога @RUSS, стратегическое партнерство с производителями онлайновых переводчиков компанией ПРОмт, открываемый Апортом (раньше, чем самим ПРОмт-ом) сервис просмотра англоязычных сайтов в русском переводе и русскоязычных - в английском.

Сейчас одним из модных веяний в Интернете являются так называемые "вертикальные порталы", .е. сайты, ориентированные на пользователей, интересующихся некоторой конкретной предметной областью (вертикальный рынок). На таких сайтах обеспечиваются все функции, характерные для "больших" порталов (новостные потоки, персонализация, поддержка комьюнити, всевозможные TIPs & FUNs), но со специализацией на эту предметную область. Конечно, всякие общезначимые вещи, интересующие всех (погода, курсы валют и фондовые индексы, наиболее значимые новости общего характера) на вертикальных порталах также присутствуют.

В этом смысле можно считать, что @RUSS с Апорт-ом замахнулись на создание вертикального портала по России, считая, что на информацию о России есть или будет достаточный спрос.

В этом смысл симптоматичен антураж, заготовленный для выставки в Нью-Йорке - стенд с большим российским флагом, подарочные матрешки и др. На выставку везут не АПОРТ с @RUSS - Россию везут!

На самом деле, это приятно. Это означает, что в РУНЕТе накоплен уже достаточный контент, чтобы его пытались продавать.

Три размышления по поводу

Размышление первое (традиционное): "страна наша богата, порядка только нет".

Точнее, нет бизнес-менталитета и бизнес-инфраструктуры.

Последние несколько лет АПОРТ, несмотря на ряд объективных достоинств, уверенно оставался аутсайдером среди русскоязычных поисковых машин (например, лично я им никогда не пользовался). Потребовались "варяги" для того, чтобы система получила не только хорошую технологию (которая была всегда), но и нормальный маркетинг. Ситуация, типичная для России. Сколько еще у нас еще есть высокопрофессиональных команд, которым достаточно небольших инвестиций, менеджмента и маркетинга, чтобы они смогли не только произвести, но и продать результаты мирового уровня? Наверное, еще сколько-то есть...

Размышление второе: О смирении.

Проходит эйфория по поводу неограниченных возможностей компьютеров, и приходит понимание незаменимости человеческого интеллекта. Центр тяжести перемещается с попыток усилить "неестественный интеллект" на попытки максимально использовать результаты осмысленной человеческой работы, причем желательной такой работы, которые люди и так делают. В области поисковых машин это проявляется в том что:

(Само)регистрация сайтов на поисковых машинах, и robots.txt (файл, где разработчик сайта указывает - какие страницы имеет смысл индексировать) а не "пауки" (программы, автоматически просматривающие и индексирующие сайты), как в ранних системах, становятся основным способом пополнения базы индексируемых сайтов. Т.е. результативно используются авторы контента.

Начинают активно использоваться ссылки и аннотации как приоритетный источник информации о контенте, более важный, чем непосредственная встречаемости слов в текстах. Это позволяет эффективно использовать труд веб-обозревателей и составителей всяческих каталогов, рубрикаторов и страничек ссылок.

Связанные (Related) запросы, практикуемые сейчас многими западными поисковыми машинами - это попытка утилизировать опыт предыдущих ищущих. Для тех кто не знает, что это такое - ведется список наиболее популярных ("стандартных") запросов, и результаты поиска для них. Когда пользователь дает некоторый поисковый запрос, ему предлагают переформулировать запрос, выбрав его из списка наиболее похожих на твой "стандартных" запросов.

Для полного счастья остается наладить обратную связь с пользователями ("Удалось ли вам найти то, что вы искали? И что именно это оказалось?". Такого похоже, еще нигде нет. Дарю идею разработчикам поисковых машин...

Размышление третье - об "индексе цитируемости"

Крайне неоднозначное отношение возникло у меня к идее использования "индекса цитируемости" как основного критерия ранжирования результатов поиска. Поднимая релевантность информации, этот подход, мне кажется, чреват серьезными последствиями.

Дело в том, что в отличии от научного сообщества, в Интернете нормальные люди редко ссылаются на другие сайты. Эти занимаются всякие каталоги, и обозреватели - профессионалы и любители. Поэтому индекс цитируемости отражает мнение некоторой достаточно узкой группы. И мне кажется, что при таком подходе существует реальная опасность "закукливания" Интернета - образования группы плотных тесно повязанных перекрестными ссылками групп ресурсов, вытесняющих все остальные на далекую периферию не только общественного внимания, но и поисковых машин. Получается ситуация типа "За что хвалю я петуха? За то, что хвалит он кукушку." В результате богатые (вниманием) становятся еще более богатыми, а бедные - еще более бедными. В научном сообществе, впрочем, эта тенденция (образование научных кланов) также давно известна.

На самом деле и так Интернет становится все менее и менее демократичным. Уже сейчас владельцу нового, пускай даже и очень интересного ресурса, требуется, как правило, значительные затраты денег и времени на раскрутку. С повсеместным внедрением механизма индексации по ссылкам и повышению значимости "индекса цитируемости" эта тенденция только усилится.

Но, собственно, также происходит и Real Life... Может быть, есть в этом какая-то сермяжная правда?

Заключение

Фуршет был хорош. В девятом часу, перегруженные пищей и информацией, слегка пошатываясь, несмотря на полный штиль, мы уходили с корабля "Викинг", желая организаторам счастливого плаванья в бурных водах международного бизнеса. Единственное, чего было немного жаль - это обещанного ресторане на 22 часа мужского стриптиза - он не входил в программу мероприятия.


( опубликовано 06.05.2001)
   

Обсуждение (всего 3 реплики, последняя - 06.01.2004 13:57)    Настройка

06.01.2004 13:57 Andrey Akopyantc Замечание по теме: Дрессура собаки 'RUS' , или РУНЕТ на вынос.
Трудно сказать...
Я вот не знаю, как свою дурочку научить ходить рядом....>> >>

 
06.01.2004 13:53 Ismall Вопрос по теме: Дрессура собаки 'RUS' , или РУНЕТ на вынос.
Два извечно русских вопроса: как быть и что делать, чтобы собака выросла помощником, охраняла и защищала ребенка, хозяина?>> >>

 
13.05.2003 09:14 Вопрос по теме: Дрессура собаки 'RUS' , или РУНЕТ на вынос.
Как приучать собаку ходить на улицу>> >>

 


В начало страницы (C) Andrey Akopyants
Перепечатка авторских материалов сайта приветствуется! Ссылка на первоисточник при перепечатке обязательна.