Здравствуйте, моя проблема заключается в том чтобы прочитать файлы .DOC .DOCX в строку например string или Memo1 желательно без использования LibreOffice или Word.
В данное время остановился на компоненте OpenOffice и даже не понимаю как из него строку считать в String
var
OpenOffice:TOpenOffice;
begin
OpenOffice := TOpenOffice.Create;
if not OpenOffice.Connect then Exit;
// OpenOffice.CreateDocument;
if opendialog1.Execute then
OpenOffice.OpenDocument('file:///'+opendialog1.filename);
Memo1.Lines.Add(?);// Не знаю как
OpenOffice.Disconnect;
end;
Уважаемые авторы вопросов! Большая просьба сообщить о результатах решения проблемы на этой странице. Иначе, следящие за обсуждением, возможно имеющие аналогичные проблемы, не получают ясного представления об их решении. А авторы ответов не получают обратной связи. Что можно расценивать, как проявление неуважения к отвечающим от автора вопроса.
21-08-2022 04:34 | Комментарий к предыдущим ответам
Формат doc - не рекомендую для самостоятельного чтения, у него совершенно неадекватная структура. А вот docx - это то, что вам надо. Это простой zip архив, внутри которого живёт несколько xml документов (вас интересует word/document.xml). Есть компоненты, которые извлекают из ZIP информацию (для Lazarus вся красота добавляется Uses ZipUtils, Zip, Unzip). XML тоже не очень сложно прочитать, например, XMLDocument. Остаётся только найти, какие теги оконтуривают текст (надо сразу найти тег w:document и внутри него w:body, большая часть текста лежит в тегах w:p, но это не всё, есть ещё ряд тегов... просто они меня не интересуют, потому сразу не скажу, но там выяснить несложно) и забирать всё, что находится между ними.
Работа с ODT - совершенно аналогична, только теги будут другие (тут не подскажу с текстом, у меня чисто таблицы, теги table:table, table:table-row, table:table-cell и внутри text:p, скорее всего, последний тег и будет то, что надо), ну и имена файлов (content.xml).
Не буду описывать то, что описано мильон раз (получение интерфейсов). Но суть в том, что надо через OLE Automation получить интерфейс к документу. Очень коротко, без нюансов:
03-06-2022 23:46 | Вопрос к автору: запрос дополнительной информации
>>> ...прочитать файлы .DOC .DOCX в строку, например string или Memo1, желательно без использования LibreOffice или Word.
Обычно, можно поступить одним из следующих способов:
1. Посмотреть ответы на аналогичные вопросы: http://www.delphikingdom.com/table/search.asp
2. Написать самому программку, которая самостоятельно разбирала бы формат .doc .docx, читала бы файл и выбирала из него только текстовое содержание.
3. Установить Word, LibreOffice, OpenOffice и т.д. Посредством OLE Automation получить из файла .doc .docx текстовое содержание.
4. Использовать сетевые сервисы через их api. Например, Google Документы.
5. Использовать формат документов, к примеру, не .doc .docx, а .rtf. Для которого можно использовать соответствующие компоненты Delphi.
>>>В данное время остановился на компоненте OpenOffice
Поясните. Что за компонент TOpenOffice? Где о нём можно прочитать?
Если вы заметили орфографическую ошибку на этой странице, просто выделите ошибку мышью и нажмите Ctrl+Enter. Функция может не работать в некоторых версиях броузеров.