![]() |
![]() |
![]() |
|
Как реализовать поиск ПОХОЖИХ строк? | ☑ | ||
---|---|---|---|---|
0
PopoKin
22.05.09
✎
18:31
|
Есть объявление, которое человек каждый раз чуть-чуть меняет, но его смысл и 90% текста сохраняются.
Вопрос: как найти это же объявление, но в чуть-чуть другой форме? Если я это буду реализовывать этот поиск существующими средствами, то это будет очень ресурсоемко (методом "Найти" можно искать слова, учитывать последовательность слов, возможность сокращения...). Может есть какой-то другой способ (программирую на 8.1)? |
|||
1
73
22.05.09
✎
18:42
|
||||
2
rs_trade
22.05.09
✎
18:48
|
(0) id объявления... )))
|
|||
3
PopoKin
22.05.09
✎
19:00
|
(1)А для 8.1 чего-нить есть?
|
|||
4
73
22.05.09
✎
19:03
|
(3)Х.З. Я и (1) не пользовался, так пробегая видел...
|
|||
5
Капитан Смоллет
22.05.09
✎
19:07
|
(0) Если как ты говоришь "программируешь на 8.1" тебе достаточно алгоритма, а иначе....
|
|||
6
DrHiHi
22.05.09
✎
19:11
|
Где реализовуется поиск??
Если есть база и там например реквизит Текст с типом строка, то в запросе може осуществить отбор по ПОДОБНО |
|||
7
kumena
22.05.09
✎
19:36
|
я фигею дорогая редакция!
обработке поиск данных уже не первый год. |
|||
8
PopoKin
22.05.09
✎
20:23
|
(6) Не получится ПОДОБНО: объявления НЕПРЕДСКАЗУЕМО разные
(7) Прочитай тему ветки еще раз. |
|||
9
AndreyFAN
22.05.09
✎
20:36
|
Объявление в смысле Продам, Куплю? или подобное...
тогда, может, по контактной информации, по тексту действительно не отловишь |
|||
10
DrHiHi
22.05.09
✎
21:16
|
(8)
основные данные типа контакта одинаковые или высчетать процент сходства текстов черед ПоДОБНО |
|||
11
AndreyFAN
22.05.09
✎
21:24
|
(10) автор не ответил на (9)
если предположить что Да, то "или процент" сходства текстов тоже ничего не даст "продам мотоцикл Урал" и "продам мотоцикл Урал б\у" считать одним и тем же объявлением? только в связи с контактной информацией, видимо, надо анализировать |
|||
12
PopoKin
22.05.09
✎
21:33
|
(9) Да
|
|||
13
toypaul
гуру
22.05.09
✎
21:34
|
надо писать какую-то хитрую хэш функцию по словам из объвления (без предлогов и окончаний).
|
|||
14
AndreyFAN
22.05.09
✎
21:41
|
если автор хочет это сделать на автомате (например удаление), то корректно это сделать невозможно...
|
|||
15
toypaul
гуру
22.05.09
✎
21:52
|
про хэш функцию что-то я намудрил. я думаю так
1. разбиваем текст на слова. без предлогов и окончаний. 2. составляем словарь. думаю он не будет большим. то есть вместо слова будем искать число 3. создаем таблицу - (код объявления, код слова) 4. по каждому слову из объявления ищем объявления. получаем таблицу (код объявления, код слова). сворачивем ее функцией COUNT, то есть по кажому объявлению считаем сколько в него входит слов из нового. объявление с макс совпадением выбираем как дубль (если конечно процент совпадения выше заданного порога). |
|||
16
AlexSSSS
22.05.09
✎
21:53
|
Есть такая вещь как "нечеткая логика". Нужно копать в этом направлении.
|
|||
17
BabySG
22.05.09
✎
22:34
|
Вообще-то поисковики так определяют статьи - гуглите и вы обретете счастье!
Там даже методология рассказана. |
|||
18
Просто Лёха
22.05.09
✎
23:18
|
(0) Через пример в Радченко полнотекстовй поиск не пойдёт?
|
|||
19
rs_trade
23.05.09
✎
10:48
|
(0)Объявления вообще где хранятся?
|
Форум | Правила | Описание | Объявления | Секции | Поиск | Книга знаний | Вики-миста |