Имя: Пароль:
1C
 
Как реализовать поиск ПОХОЖИХ строк?
0 PopoKin
 
22.05.09
18:31
Есть объявление, которое человек каждый раз чуть-чуть меняет, но его смысл и 90% текста сохраняются.
Вопрос: как найти это же объявление, но в чуть-чуть другой форме?

Если я это буду реализовывать этот поиск существующими средствами, то это будет очень ресурсоемко (методом "Найти" можно искать слова, учитывать последовательность слов, возможность сокращения...).
Может есть какой-то другой способ (программирую на 8.1)?
1 73
 
22.05.09
18:42
2 rs_trade
 
22.05.09
18:48
(0) id объявления... )))
3 PopoKin
 
22.05.09
19:00
(1)А для 8.1 чего-нить есть?
4 73
 
22.05.09
19:03
(3)Х.З. Я и (1) не пользовался, так пробегая видел...
5 Капитан Смоллет
 
22.05.09
19:07
(0) Если как ты говоришь "программируешь на 8.1" тебе достаточно алгоритма, а иначе....
6 DrHiHi
 
22.05.09
19:11
Где реализовуется поиск??
Если есть база и там например реквизит Текст с типом строка, то в запросе може осуществить отбор по ПОДОБНО
7 kumena
 
22.05.09
19:36
я фигею дорогая редакция!
обработке поиск данных уже не первый год.
8 PopoKin
 
22.05.09
20:23
(6) Не получится ПОДОБНО: объявления НЕПРЕДСКАЗУЕМО разные
(7) Прочитай тему ветки еще раз.
9 AndreyFAN
 
22.05.09
20:36
Объявление в смысле Продам, Куплю? или подобное...
тогда, может, по контактной информации, по тексту действительно не отловишь
10 DrHiHi
 
22.05.09
21:16
(8)
основные данные типа контакта одинаковые
или высчетать процент сходства текстов черед ПоДОБНО
11 AndreyFAN
 
22.05.09
21:24
(10) автор не ответил на (9)
если предположить что Да, то
"или процент" сходства текстов тоже ничего не даст
"продам мотоцикл Урал" и "продам мотоцикл Урал б\у" считать одним и тем же объявлением?
только в связи с контактной информацией, видимо, надо анализировать
12 PopoKin
 
22.05.09
21:33
(9) Да
13 toypaul
 
гуру
22.05.09
21:34
надо писать какую-то хитрую хэш функцию по словам из объвления (без предлогов и окончаний).
14 AndreyFAN
 
22.05.09
21:41
если автор хочет это сделать на автомате (например удаление), то корректно это сделать невозможно...
15 toypaul
 
гуру
22.05.09
21:52
про хэш функцию что-то я намудрил. я думаю так
1. разбиваем текст на слова. без предлогов и окончаний.
2. составляем словарь. думаю он не будет большим. то есть вместо слова будем искать число
3. создаем таблицу - (код объявления, код слова)
4. по каждому слову из объявления ищем объявления. получаем таблицу (код объявления, код слова). сворачивем ее функцией COUNT, то есть по кажому объявлению считаем сколько в него входит слов из нового. объявление с макс совпадением выбираем как дубль (если конечно процент совпадения выше заданного порога).
16 AlexSSSS
 
22.05.09
21:53
Есть такая вещь как "нечеткая логика". Нужно копать в этом направлении.
17 BabySG
 
22.05.09
22:34
Вообще-то поисковики так определяют статьи - гуглите и вы обретете счастье!
Там даже методология рассказана.
18 Просто Лёха
 
22.05.09
23:18
(0) Через пример в Радченко полнотекстовй поиск не пойдёт?
19 rs_trade
 
23.05.09
10:48
(0)Объявления вообще где хранятся?
Компьютеры — прекрасное средство для решения проблем, которых до их появления не было.