| 
    
        
     
     | 
    
  | 
Как из Word извлечь текст без COM? | ☑ | ||
|---|---|---|---|---|
| 
    0
    
        Гений 1С    
     20.11.24 
            ✎
    18:56 
 | 
         
        1C же умеет формировать Word-документы, может и разбирать их умеет?
 
        Хочу получить текст, чтобы скармливать его ИИ  | 
|||
| 
    3
    
        osa1C    
     20.11.24 
            ✎
    19:15 
 | 
||||
| 
    4
    
        arsik    
     20.11.24 
            ✎
    19:23 
 | 
         
        (0) Полнотекстовый поиск натрави или извлечение текстов     
         | 
|||
| 
    5
    
        Кирпич    
     20.11.24 
            ✎
    20:27 
 | 
         
        (0) Ты же теперь заядлый питонист. В python есть всё.     
         | 
|||
| 
    6
    
        Гений 1С    
     20.11.24 
            ✎
    22:42 
 | 
         
        (2) (3) прэлестно. а если это DOC?
 
        (4) Из пушки по тушке. (5) с чего это?  | 
|||
| 
    7
    
        Волшебник    
     20.11.24 
            ✎
    22:42 
 | 
         
        (6) пересохраните в DOCX     
         | 
|||
| 
    8
    
        Asmody    
     20.11.24 
            ✎
    22:48 
 | 
         
        (0) СП, ИзвлечениеТекста
 
        дарю  | 
|||
| 
    9
    
        Гений 1С    
     20.11.24 
            ✎
    22:51 
 | 
         
        Кстати, посмотрел процедурку УправлениеПечатьюСлужебный.ИнициализироватьСтруктуруПечатнойФормы в 1С, видно что 1С DOCX тоже читает как архив XML-файлов. Пичаль.     
    
  | 
|||
| 
    10
    
        Гений 1С    
     20.11.24 
            ✎
    22:57 
 | 
         
        (8) метод "ИзвлечениеТекста"
 
        кстати, да, спасибо, надо покурить Вот тут есть фильтры: http://www.ifilter.org/Links.htm Тока сдается мне 1С забила болт на это.  | 
|||
| 
    11
    
        osa1C    
     21.11.24 
            ✎
    06:05 
 | 
         
        (6) пересохрани *.doc как *.docx и кури бамбук     
         | 
|||
| 
    12
    
        Прохожий    
     21.11.24 
            ✎
    08:35 
 | 
         
        (11) У вас в слове *.txt четыре ошибки.     
         | 
|||
| 
    13
    
        igor_caplin    
     21.11.24 
            ✎
    09:52 
 | 
         
        (6) Недавно сталкивался с такой задачей на питоне. Из очевидного конечно это пересохранить в DOCX. Но потом встал вопрос, а как это сделать автоматически, если прилетать могут на вход как док так и докх. Без участия офиса я не понял как это сделать. Но благо на питоне есть библиотеки для работы с либре офисом, который есть и на линухе и на винде. Поэтому осталось только загонять док в либре офис, пересохранять в докх и потом уже работать либо как XML либо как с DOCX через имеющиеся библиотеки     
         | 
|||
| 
    14
    
        Кирпич    
     22.11.24 
            ✎
    17:49 
 | 
         
        (0) есть древняя программа antiword, которая из doc текст вытягивает     
         | 
|||
| 
    15
    
        Гений 1С    
     23.11.24 
            ✎
    14:14 
 | 
         
        (11) как пересохранить? ручками?     
         | 
|||
| 
    16
    
        Кирпич    
     23.11.24 
            ✎
    15:24 
 | 
         
        (15) Нужно гуглить про то, как можно конвертить файлы либраофисом из командно строки. Но за гугление денег не заплатят, а значит задача нерешаема. Забудь.     
         | 
|||
| 
    17
    
        osa1C    
     23.11.24 
            ✎
    19:25 
 | 
         
        (15) 
 
        "C:\Program Files\Microsoft Office\Office12\wordconv.exe" -oice -nme <input file> <output file> Команда может быть легко применена к нескольким документам с помощью for: for %F in (*.doc) do "C:\Program Files\Microsoft Office\Office12\wordconv.exe" -oice -nme "%F" "%Fx"  | 
|||
| 
    18
    
        osa1C    
     23.11.24 
            ✎
    19:42 
 | 
||||
| 
    19
    
        Гений 1С    
     24.11.24 
            ✎
    17:13 
 | 
         
        (17) окей, надо глянуть. Еще вот нарыл: https://www.coolutils.com/ru/TotalDocConverter
 
        Но не проверял, проприетарное  | 
|||
| 
    20
    
        Гений 1С    
     24.11.24 
            ✎
    17:15 
 | 
         
        (18) интересно, что там используется, COM-подключение к Word? автор как-то скромно не упомянул     
         | 
|||
| 
    21
    
        Кирпич    
     25.11.24 
            ✎
    10:54 
 | 
         
        На гитхабе есть несколько рабочих вариантов нп c# и c++ для docx и для doc. Но 100 пудовый вариант libreoffice и запуск --convert. Правда надо полгига этого офиса установить, если не пользуешься.     
         | 
|||
| 
    22
    
        Гений 1С    
     25.11.24 
            ✎
    13:42 
 | 
         
        (21) не пользуюсь, полгига как-то не аллоу     
         | 
|||
| 
    23
    
        Кирпич    
     25.11.24 
            ✎
    14:17 
 | 
         
        (22) "полгига как-то не аллоу"
 
        Ну да. У тебя ж там порнухой забито всё под завязку. Ну на гитхабе найди на 300 килобайт. Там этого добра навалом. Вчера смотрел и даже запускал парочку.  | 
|||
| 
    24
    
        Garykom    
     25.11.24 
            ✎
    14:36 
 | 
         
        (0) лично я решал бы задачку через gotenberg.dev + unidoc/unipdf
 
        хотя возможно хватит только unidoc/unioffice  | 
|||
| 
    25
    
        Кирпич    
     25.11.24 
            ✎
    14:52 
 | 
         
        (24) да. щас прям он сядет и начнет погружаться в go :)
 
        нахрен он ему навалился  | 
|||
| 
    26
    
        Звездец    
     25.11.24 
            ✎
    15:03 
 | 
         
        поясните, DOC, DOCX, ИИ - при чем тут вообще 1с, а главное зачем?     
         | 
 | Форум | Правила | Описание | Объявления | Секции | Поиск | Книга знаний | Вики-миста |