Вход | Регистрация
 
1С:Предприятие :: 1С:Предприятие 7.7 и ранее

v7: Какой наиболее простой способ прочитать данные с HTML страницы

v7: Какой наиболее простой способ прочитать данные с HTML страницы
Я
   evgpinsk_
 
01.10.21 - 09:36
Есть сайт госзакупок. Пример:
https://goszakupki.by/marketing/view/462737

Хотелось бы отчасти автоматизировать процесс создания счёта.
Требуется прочитать основные данные с этой страницы закупки:
Номер закупки, УНП, Имя клиента, адрес, email и т.д.

Через тотже wget страницу можно прочитать в текстовый файл^
https://dropmefiles.com/JIsxW
Этот файл можно открыть или как текстовый или браузером в виде html файла /глазами видим его более читаемо/

Ну и сам вопрос: какой наиболее простой способ прочитать нужные данные?
   Garykom
 
1 - 01.10.21 - 09:48
нанять программиста
   ДенисЧ
 
2 - 01.10.21 - 09:49
   Garykom
 
3 - 01.10.21 - 09:49
(2) по апи без программиста? ну может уже есть готовые решения для 77 но вряд ли
   evgpinsk_
 
4 - 01.10.21 - 09:50
Этот путь я знаю, и готов кстати на это, если расценки не разорят /почта в подписи/ )
Либо второй вариант - попробовать самому
   ДенисЧ
 
5 - 01.10.21 - 09:50
(4) Используй второй вариант, дешевле выйдет
   Aleksey
 
6 - 01.10.21 - 09:50
(2) Ему нужны Белорусские закупки. Думаешь движок один на всех?
   Garykom
 
7 - 01.10.21 - 09:51
(4) есть несколько способов, какой лучше не попробовав не понять
если можно по апи то надо по нему а как из 1С по http это уже пофиг
   evgpinsk_
 
8 - 01.10.21 - 09:52
К сожалению API у них нет
   evgpinsk_
 
9 - 01.10.21 - 09:53
способ (2)
уже не виден 
:)
   Garykom
 
10 - 01.10.21 - 09:56
слово "парсер" что нибудь говорит?
   evgpinsk_
 
11 - 01.10.21 - 09:56
(10) да )
   Garykom
 
12 - 01.10.21 - 09:59
(11) ну так погугли в сочетании с 1С 77
   evgpinsk_
 
13 - 01.10.21 - 11:36
(12) Погуглил, сильно не помогло
Я правильно понимаю что нужно использовать средства работы с JSON?

или может быть через чтение XML?
   evgpinsk_
 
14 - 01.10.21 - 11:37
Или может просто через чтение текстового файла, искать нужный тег, например "УНП организации" 
и за ним будет нужны мне УНП

может это наиболее простой вариант?
   evgpinsk_
 
15 - 01.10.21 - 11:38
   evgpinsk_
 
16 - 01.10.21 - 11:40
Здесь можно спрашивать желающих платно решить задачу?
   AAA
 
17 - 01.10.21 - 11:46
Делал и ручной парсинг, и не совсем ручной Работало, ломалось при изменении сайта, модифицировал. Потом в силу ряда причин
клиент сделал на питоне поиск нужных тендеров и валит мне текстовый файл с реестровыми номерами тендеров и остальной нужной информацией
   evgpinsk_
 
18 - 01.10.21 - 11:50
> "клиент сделал на питоне поиск нужных тендеров"
У нас будет ручной поиск

> "и валит мне текстовый файл с реестровыми номерами тендеров и остальной нужной информацией"
а в чём смысл? что дальше?
   Arbuz
 
19 - 01.10.21 - 15:18
(18) Смысл в унификации формата входного файла, но парсер на питоне надо переписывать при изменении сайта.
   evgpinsk_
 
20 - 01.10.21 - 15:21
(19) Не пойму, т.е. через питон можно сделать самое основное - получить в унифицированном виде всю информацию со страницы тендера.
В чём проблема было дописать небольшой объём кода для дальнейшей переброски в 1с?
Зачем им ваши услуги по переброске данных? )
   Arbuz
 
21 - 01.10.21 - 15:27
(20) Не каждый питонщик захочет вникать в кухню 1С и, соответственно, не каждый 1Сник потянет питон.
   evgpinsk_
 
22 - 01.10.21 - 15:36
(21) Это понятно. не понятно:
(17) > "и валит мне текстовый файл с реестровыми номерами тендеров и остальной нужной информацией"

валит каждый раз для чего?
когда можно просто запустить скрипт, который один раз написал программист 1с )
   Garykom
 
23 - 01.10.21 - 15:40
(21) пофиг суть в разделении задачи на части
одна парсит и приводит в некий стандарт
другая из стандарта грузит в 1С

на чем делать части пофиг, хоть питон, хоть 1С, хоть микросервис на Golang
   evgpinsk_
 
24 - 27.10.21 - 10:47
Подытожу тему, вот такая обработка была заказана, парсинг реализован на базе v7plus.dll
https://prnt.sc/1xgsiui

Производительность труда выросла в разы.
Правда наткнулся на проблемку (пока не решили) крашится 1с примерно на каждом 3-4 парсинге на строке:
Документ = Анализатор.СоздатьДокумент();
   Garykom
 
25 - 27.10.21 - 10:55
(24) мдя но конечно зависит сколько заплатили
   Garykom
 
26 - 27.10.21 - 10:57
"v7plus.dll" это хрень, уже давно принято для 77 на WinHttp.WinHttpRequest или Msxml2.ServerXMLHTTP
   evgpinsk_
 
27 - 27.10.21 - 11:02
(26) Хрень изза нестабильной работы?
   Garykom
 
28 - 27.10.21 - 11:05
(27) угу ибо оно времен Win98 и Win2k
ну и не умеет многое
   Garykom
 
29 - 27.10.21 - 11:07
Короче виртуалка (hyper-v или virtualbox бесплатны), туда win2k3, туда 1C 77 и вот там должно быть стабильно
только могут быть траблы с сертификатами
   evgpinsk_
 
30 - 27.10.21 - 12:06
(29) Не, думаю это не очень пройдёт, 1с завязана с темже TheBat и т.д.
 
 
   Злопчинский
 
31 - 27.10.21 - 12:10
(24) что за хрень с этим хостингом? просит при просмотре сначала доказать что ты не верблюд, а потом выплевывает текстовый огрызок страницы лайтшота...
   Garykom
 
32 - 27.10.21 - 12:22
(30) "TheBat" ?
Вы там из какого века?

И вот не пофиг по RDP то
   evgpinsk_
 
33 - 27.10.21 - 12:23
(31) не понимаю
https://prnt.sc/1xgsiui

сразу открывается картинка. у вас нет?
   Garykom
 
34 - 27.10.21 - 12:24
(31) угу я предпочитаю нормальным https://pastenow.ru/6e7574811aeb2748046bb83c0f55badc пользоваться
   evgpinsk_
 
35 - 27.10.21 - 12:24
(32) в чём проблема этого почтового менеджера? )
такойже как и десятки других, миллионы им пользуются и сейчас
   Garykom
 
36 - 27.10.21 - 12:25
(35) платная
зачем когда есть https://ru.wikipedia.org/wiki/Mozilla_Thunderbird

или уже давным давно принято веб-интерфейсы юзать
   evgpinsk_
 
37 - 27.10.21 - 12:26
(34) понятие нормальности очень относительно, Prnt Scr - точно также пользуются тысячи пользователей и не знаю проблем. Не думаю что пастенов так уж принципиально круче ))
   ДенисЧ
 
38 - 27.10.21 - 12:27
(36) Тундра по сравнинию с мышью - что плотник супротив столяра (с)
   evgpinsk_
 
39 - 27.10.21 - 12:28
(36) Винда и офис тоже платные, Как и куча другого софта )

> зачем когда есть https://ru.wikipedia.org/wiki/Mozilla_Thunderbird

Это примерно как: "зачем ты покупаешь красные розы, когда вот редяом есть оранжевые тюльпаны" ))
   evgpinsk_
 
40 - 27.10.21 - 12:29
(36) > или уже давным давно принято веб-интерфейсы юзать

а веб интерфей - это вообще гемор. Я предпочитаю всю почту держать оффлайн а не гемороится с открытием веб страниц.
   Garykom
 
41 - 27.10.21 - 12:29
(38) Под тундру есть куча плагинов
Примерно как плотник с набором инструментов против столяра без станка ))
   evgpinsk_
 
42 - 27.10.21 - 12:30
Факт один - для каждого продукта есть своя ниша. И заявлять просто так что одно хорошее а другое плохое, без привязки к конкретным условиям - ну очень смело
   ДенисЧ
 
43 - 27.10.21 - 12:30
(41) Зачем нужна куча плагинов, которые тухнут при смене версии, если есть нормальная программа?
   Garykom
 
44 - 27.10.21 - 12:31
(43) кто заставляет менять версию то?
   Garykom
 
45 - 27.10.21 - 12:32
(42) факт один
не думаю что у вас купленный бат
да и 1С 77 имхается пиратка
   pechkin
 
46 - 27.10.21 - 12:32
если страница полностью качается, то открываешь дом, а там по xpath все поля вычисляешь
   Garykom
 
47 - 27.10.21 - 12:32
(46) он не программист ))
   ДенисЧ
 
48 - 27.10.21 - 12:33
(44) Не поверишь - тундра. Прилетает критическое обновление и оппа. А следить - зачем, если есть нормальная программа?
   evgpinsk_
 
49 - 27.10.21 - 12:33
(45) Конечно не куплен. так я и не заявляю, что бесплатность это плюс. )

А вот купили лы Вы MS Ofiice ? ))
   evgpinsk_
 
50 - 27.10.21 - 12:34
(46) Да, случайно сначала в другую ветку бросил эту проблему и Ёпрст посоветоавл в т.ч. и дом использовать.
Только да - данную разработку я заказал на стороне, своими силами намного дороже было бу делать. Также и с домом - придётся кучу времени тратить на изучение
   Garykom
 
51 - 27.10.21 - 12:35
(49) лично я для себя пользую LibreOffice
на работе арендованный MS Office
   Garykom
 
52 - 27.10.21 - 12:36
(48) Отключай обновления
Там уже хз сколько лет ничего не менялось с появления IMAP
   Злопчинский
 
53 - 27.10.21 - 12:59
(33) вот вся твоя картинка после прохожденяи капчи-робтоа найди все автобусы
https://www.screencast.com/t/od1ht3Sc
   Злопчинский
 
54 - 27.10.21 - 12:59
(36) тандеберд норм, но он меня чем-то неуловимо раздражал, слез с него, поюзав с полгода..
вернулся к бату.
   Злопчинский
 
55 - 27.10.21 - 13:01
(45) у меня бат - купленный.
   Злопчинский
 
56 - 27.10.21 - 13:02
(51) либра меня оттолкнула своим фейсом. ни в дугу. перешел давно на WPS Office дома.
   ДенисЧ
 
57 - 27.10.21 - 13:06
(52) а, то есть я ещё что-то там настраивать должен? Зачем, если есть нормальная программа?
   evgpinsk_
 
58 - 27.10.21 - 13:27
(53) Очень странно. Сейчас проверил открытие ссылки на другом компе и телефоне - сразу моментально виден скрин без всяких капчей
   Злопчинский
 
59 - 27.10.21 - 14:18
(58) это не только у твоих картинок так. хз что рубит (может на компе у меня что-то), но и по ссылкам других "авторов" тоже. напрягает одно что сначала надо верификацию капчей пройти.. ваще ужос...
   andrewalexk
 
60 - 27.10.21 - 19:18
(0) :) у абрамса норм код на форумах
я его доделал и превратил хтмл-коллекцию поэзии в тхт-коллекцию
 
 
   evgpinsk_
 
61 - 28.10.21 - 08:44
(60) может ссылка есть ?
   andrewalexk
 
62 - 28.10.21 - 10:45
(61) :)
ну точной нету - искал через поиск по мисте
но вот такой код у меня отработал

IE=СоздатьОбъект("InternetExplorer.Application");
IE.Navigate(Путь);
Пока ie.readystate<4 Цикл
    Состояние("Загрузка...");
КонецЦикла;
стр=ie.document.body.innertext;
для й=1 по СтрКоличествоСтрок(стр) Цикл
    стр1=СтрПолучитьСтроку(стр,й);
...
   evgpinsk_
 
63 - 28.10.21 - 13:53
И "абрамс" и "abrams" не находит )
   andrewalexk
 
64 - 28.10.21 - 13:59
(63) :)) месье ну как не стыдно
smaharba
   evgpinsk_
 
65 - 28.10.21 - 13:59
(62) Код заработал сходу, без всякого дополнительного чтения страницы Wget
круто :)
   evgpinsk_
 
66 - 28.10.21 - 14:00
(64) Ну не знаю я ещё всех поимённо кого нужно знать )
   evgpinsk_
 
67 - 27.11.21 - 22:59
(62) InternetExplorer.Application
хорошо читает HTML странички.
Парсить понравилось, но столкнулся с проблемой парсинга в другой задаче:

Когда в цикле обрабатываю много разных страниц, после парсинга 20-40 страниц или вылазит модальное окно "сервер занят действие не может быть завершено"
или крашится Internet Explorer

Может есть какието предположения почему?
   evgpinsk_
 
68 - 27.11.21 - 23:25
После такого падения уже приходится перезапускать сеанс, т.к. :
Неудачная попытка создания объекта (InternetExplorer.Application)
   andrewalexk
 
69 - 29.11.21 - 10:43
(68) :)
да есть такая беда
я просто закрываю сеанс программно и перезапускаю


Список тем форума
 
Программист всегда исправляет последнюю ошибку.
ВНИМАНИЕ! Если вы потеряли окно ввода сообщения, нажмите Ctrl-F5 или Ctrl-R или кнопку "Обновить" в браузере.