Rambler's Top100
"Knowledge itself is power"
F.Bacon
Поиск | Карта сайта | Помощь | О проекте | ТТХ  
 Круглый стол
  
Правила КС
>> Настройки

Фильтр вопросов
>> Новые вопросы
отслеживать по
>> Новые ответы

Избранное

Страница вопросов
Поиск по КС


Специальные проекты:
>> К л ю к в а
>> Г о л о в о л о м к и

Вопрос №

Задать вопрос
Off-topic вопросы

Помощь

 
 К н и г и
 
Книжная полка
 
 
Библиотека
 
  
  
 


Поиск
 
Поиск по КС
Поиск в статьях
Яndex© + Google©
Поиск книг

 
  
Тематический каталог
Все манускрипты

 
  
Карта VCL
ОШИБКИ
Сообщения системы

 
Форумы
 
Круглый стол
Новые вопросы

 
  
Базарная площадь
Городская площадь

 
   
С Л С

 
Летопись
 
Королевские Хроники
Рыцарский Зал
Глас народа!

 
  
ТТХ
Конкурсы
Королевская клюква

 
Разделы
 
Hello, World!
Лицей

Квинтана

 
  
Сокровищница
Подземелье Магов
Подводные камни
Свитки

 
  
Школа ОБЕРОНА

 
  
Арсенальная башня
Фолианты
Полигон

 
  
Книга Песка
Дальние земли

 
  
АРХИВЫ

 
 

Сейчас на сайте присутствуют:
 
  
 
Во Флориде и в Королевстве сейчас  03:57[Войти] | [Зарегистрироваться]
Ответ на вопрос № 83816

01-06-2022 13:29
Здравствуйте, моя проблема заключается в том чтобы прочитать файлы .DOC .DOCX в строку например string или Memo1 желательно без использования LibreOffice или Word.
В данное время остановился на компоненте OpenOffice и даже не понимаю как из него строку считать в String


var
OpenOffice:TOpenOffice;
begin
  OpenOffice := TOpenOffice.Create;
  if not OpenOffice.Connect then Exit;
//  OpenOffice.CreateDocument;
if opendialog1.Execute then
  OpenOffice.OpenDocument('file:///'+opendialog1.filename);
  Memo1.Lines.Add(?);// Не знаю как
  OpenOffice.Disconnect;
end;


[+] Добавить в избранные вопросы

Отслеживать ответы на этот вопрос по RSS

Ответы:


Уважаемые авторы вопросов! Большая просьба сообщить о результатах решения проблемы на этой странице.
Иначе, следящие за обсуждением, возможно имеющие аналогичные проблемы, не получают ясного представления об их решении. А авторы ответов не получают обратной связи. Что можно расценивать, как проявление неуважения к отвечающим от автора вопроса.

21-08-2022 04:34 | Комментарий к предыдущим ответам
Формат doc - не рекомендую для самостоятельного чтения, у него совершенно неадекватная структура. А вот docx - это то, что вам надо. Это простой zip архив, внутри которого живёт несколько xml документов (вас интересует word/document.xml). Есть компоненты, которые извлекают из ZIP информацию (для Lazarus вся красота добавляется Uses ZipUtils, Zip, Unzip). XML тоже не очень сложно прочитать, например, XMLDocument. Остаётся только найти, какие теги оконтуривают текст (надо сразу найти тег w:document и внутри него w:body, большая часть текста лежит в тегах w:p, но это не всё, есть ещё ряд тегов... просто они меня не интересуют, потому сразу не скажу, но там выяснить несложно) и забирать всё, что находится между ними.
Работа с ODT - совершенно аналогична, только теги будут другие (тут не подскажу с текстом, у меня чисто таблицы, теги table:table, table:table-row, table:table-cell и внутри text:p, скорее всего, последний тег и будет то, что надо), ну и имена файлов (content.xml).

06-06-2022 06:24
Не буду описывать то, что описано мильон раз (получение интерфейсов). Но суть в том, что надо через OLE Automation получить интерфейс к документу. Очень коротко, без нюансов:

var App, Doc:OleVariant;

App:=CreateOleObject('Word.Application');
Doc:=App.Documents.Open(FilePath);
Text:=Doc.Range.Text;
Doc.Close;
App.Quit;

03-06-2022 23:46 | Вопрос к автору: запрос дополнительной информации
>>> ...прочитать файлы .DOC .DOCX в строку, например string или Memo1, желательно без использования LibreOffice или Word.
  Обычно, можно поступить одним из следующих способов:
  1. Посмотреть ответы на аналогичные вопросы:
  http://www.delphikingdom.com/table/search.asp
  2. Написать самому программку, которая самостоятельно разбирала бы формат .doc .docx, читала бы файл и выбирала из него только текстовое содержание.
  3. Установить Word, LibreOffice, OpenOffice и т.д. Посредством OLE Automation получить из файла .doc .docx текстовое содержание.
  4. Использовать сетевые сервисы через их api. Например, Google Документы.
  5. Использовать формат документов, к примеру, не .doc .docx, а .rtf. Для которого можно использовать соответствующие компоненты Delphi.
 
>>>В данное время остановился на компоненте OpenOffice
  Поясните. Что за компонент TOpenOffice? Где о нём можно прочитать?

Добавьте свое cообщение

Вашe имя:  [Войти]
Ваш адрес (e-mail):На Королевстве все адреса защищаются от спам-роботов
контрольный вопрос:
Кто съел Красную шапочку?
в качестве ответа на вопрос или загадку следует давать только одно слово в именительном падеже и именно в такой форме, как оно используется в оригинале.
Надоело отвечать на странные вопросы? Зарегистрируйтесь на сайте.
Тип сообщения:
Текст:
Жирный шрифт  Наклонный шрифт  Подчеркнутый шрифт  Выравнивание по центру  Список  Заголовок  Разделительная линия  Код  Маленький шрифт  Крупный шрифт  Цитирование блока текста  Строчное цитирование
  • вопрос Круглого стола № XXX

  • вопрос № YYY в тесте № XXX Рыцарской Квинтаны

  • сообщение № YYY в теме № XXX Базарной площади
  • обсуждение темы № YYY Базарной площади
  •  
     Правила оформления сообщений на Королевстве

    Страница избранных вопросов Круглого стола.
      
    Время на сайте: GMT минус 5 часов

    Если вы заметили орфографическую ошибку на этой странице, просто выделите ошибку мышью и нажмите Ctrl+Enter.
    Функция может не работать в некоторых версиях броузеров.

    Web hosting for this web site provided by DotNetPark (ASP.NET, SharePoint, MS SQL hosting)  
    Software for IIS, Hyper-V, MS SQL. Tools for Windows server administrators. Server migration utilities  

     
    © При использовании любых материалов «Королевства Delphi» необходимо указывать источник информации. Перепечатка авторских статей возможна только при согласии всех авторов и администрации сайта.
    Все используемые на сайте торговые марки являются собственностью их производителей.

    Яндекс цитирования