Имя: Пароль:
IT
Жизнь форума
ТехИнфо: релевантность результата поиска по форуму
0 Волшебник
 
24.11.04
20:50
В технологии поиска по форуму произошла маленькая революция: вместо сортировки по убыванию даты теперь результат поиска сортируется по релевантности.

Релевантность - это соответствие результата запросу пользователя. Очень сложно достигнуть высокой релевантности, потому что машине сложно понять, что имеет в виду пользователь, что действительно ему нужно.

Сейчас при подсчете релевантности учитываются следующие параметры:
1. Находится ли ветка или сообщение в базе знаний
2. Вес пользователя (рассчитывается по внутреннему алгоритму, учитывается факт, является ли пользователь зарегистрированным)
3. Раздел, в котором находится ветка (1С, IT, LIFE)
4. Длина ветки
5. Индекс цитирования ветки (грубый аналог PageRank)
6. Учитывается некоторые ключевые слова сообщения (по внутреннему алгоритму)
7. Кол-во найденных сообщений внутри ветки
8. Некоторые другие параметры

Релевантность показывается как отношение к "нормальной" релевантности, например, 1.17, 2.65, 0.67.

В дальнейшем планируется сделать некий грубый аналог учета словоформ и повышение релевантности по связанным словам по технологии, о которой речь шла в этой ветке OFF: Улучшение поиска по форуму - сбор предложений
1 Витаэль
 
24.11.04
20:59
Было бы неплохо чтобы при поиске по своему нику, автоматом искал бы и по другим своим никам.
2 Asmody
 
24.11.04
21:32
(0) Стас, тоже поисковую систему пишешь? хочешь создать конкуренцию Microsoft'у? >;))
3 Витаэль
 
24.11.04
21:35
Мне оказалось изящным решение на Одинэсии - поиск в яндексе.
4 Asmody
 
24.11.04
21:35
(3) это мы уже проходили. у нас такое есть >;))
5 Волшебник
 
24.11.04
21:49
Поиск по словоформам реализован путем простого отбрасывания окончаний "ый", "ого" и т.д. Например, по запросу "терминальный режим" найдутся слова "терминальном режиме".

Поиск по связанным словам на подходе. Вся проблема в словаре. Автоматически его составить очень сложно. Видимо, придется напрячь инженеров знаний.
6 Витаэль
 
24.11.04
21:50
5 В смысле инженеры знаний будут сопоставлять ники? :)
7 Волшебник
 
24.11.04
22:00
(6) Про ники забудь.
8 Витаэль
 
24.11.04
22:03
Жаль что ночами здесь никого нет.
9 о_о
 
24.11.04
23:26
я может забыл русский язык, но по моему кроме окончаний есть еще суффиксы, приставки. А еще "пох" и "нах"  - как примеры сокращений. А еще есть очепятки. И слэнг.
Врядли отбрасывание окончаний решает проблему поиска.
ИМХО, конечно.
10 romix
 
25.11.04
04:08
Может релевантность и вещь хорошая, но я всегда юзал поиск по нику, чтобы находить обращения к себе, и отвечать на них.
11 romix
 
25.11.04
04:11
(5) Словарь связанных слов можно составить автоматически, если анализировать поисковые запросы.

Насчет морфологии с отбрасыванием окончаний - это опасно. Гугл вообще без морфологии все ищет. И, как правило, находит. :-)
12 Волшебник
 
25.11.04
07:18
(9) Приставки и суффиксы могут изменить смысл слова, поэтому отбрасывать их нельзя. С сокращениями, опечатками и сленгом ничего поделать нельзя, да и нет желания. Отбрасывание окончаний УЖЕ решило проблему поиска по разным словоформам, по крайней мере на 80%.

(11) Поисковые запросы уже анализируются. Эта идея уже давно сидит в моем КПК. :)

Удивительно, но многие используют поиск по нику, чтобы находить свои или чужие сообщения. Может быть для этого стоит сделать отдельный режим поиска.
13 Wasya
 
25.11.04
07:38
Релевантный поиск это хорошо. Но возникла проблемка. Я пользовался поиском по своему нику, что бы просмотреть ветки которые мене интересны. Можно ли сделать отдельный поиск по нику, упорядоченный по времени? Примерно как в ProClub, когда в своем профиле можно посмотреть все свои сообщения.
14 Волшебник
 
25.11.04
08:59
(13) Уже записано в планы.
Закон Брукера: Даже маленькая практика стоит большой теории.