|
Программно вытащить таблицу из PDF |
☑ |
0
312Kbps
04.03.10
✎
16:40
|
Уважаемые профессионалы !
Подскажите как это сделать и вообще возможно ли это !?
програмно вытащить таблицу из PDF файла .
Заранее благодарен !
|
|
1
luckyluke
04.03.10
✎
16:47
|
PDF - это же картинка... думаю можно попробовать реализовать механизм распознавания графики или может воспользоваться каким-нибудь другим модулем для распознавания. Вообще, мне кажется, плохая это идея, хотя по всей вероятности реализуемая, но стоит ли оно того. Может лучше по другому поставить задачу?
|
|
2
sergeante
04.03.10
✎
16:51
|
ыыы) вечно конторы не могут договориться между собой о формате присылаемых отчотов.
|
|
3
Mashinist
04.03.10
✎
16:54
|
(1) PDF не всегда картинка. Там и текст может быть.
|
|
4
luckyluke
04.03.10
✎
17:01
|
(3) и правда "Формат PDF позволяет внедрять необходимые шрифты (построчный текст), векторные и растровые изображения, формы и мультимедиа-вставки. Поддерживает RGB, CMYK, Grayscale, Lab, Duotone, Bitmap, несколько типов сжатия растровой информации. Имеет собственные технические форматы для полиграфии: PDF/X-1, PDF/X-3. Включает механизм электронных подписей для защиты и проверки подлинности документов. В этом формате распространяется большое количество сопутствующей документации." Ну тогда надо уже читать документацию и смотреть в каком виде приходит этот файл. Так что можно в любом случае, вопрос только во времени реализации.
|
|
5
312Kbps
04.03.10
✎
17:04
|
в том то и дело нужно именно из PDF (которые автоматом приходят ввиде отчетности) доставить таблицы и работать с ними, хоть примерчик какой нить найти !? )
есть ещё вариант, pdf конвертить excel, но мне кажется это ещё замороченей может быть
|
|
6
Fragster
гуру
04.03.10
✎
17:07
|
(5) ищи на хабре цикл статей «текст любой ценой»
|
|
7
Fragster
гуру
04.03.10
✎
17:07
|
проблема в том, что в pdf таблица - это набор надписей по координатам + нарисованная линиями рамка
|
|
8
shuhard
04.03.10
✎
17:08
|
(5) если есть xls, то о чём разговор - ADODB и в дамки
|
|
9
shuhard
04.03.10
✎
17:09
|
(8) + кстати FineReader pdf давно "знает"
|
|