Дмитрий
Дмитрий29 августа 2017 г. 15:26

Открываем fb2-файлы средствами Qt

В настоящее время fb2 является популярным форматом для хранения книг. Файл fb2 — это частный случай xml. Основным элементом его структуры, как и для html, являются теги (управляющие слова). В этой статье я покажу вам, как создать простую программу просмотра файлов fb2. Проект с исходным текстом можно скачать по ссылка. .

Главная Информация

Теги делятся на блочные и строчные. Блочные теги группируются попарно от открывающего тега, закрывающего тег, между которым находится контент. Например, абзац текста записывается как

<p>Paragraph text</p>

Внутри такой пары блоков можно поставить другие теги. Теги нижнего регистра используются для объектов, в которые ничего нельзя встроить. Например, указатель на рисунок

<image l:href = “#_0.jpg”/>

содержит информацию: 1) о том, что в данном месте документа необходимо вставить рисунок, 2) ссылку на этот рисунок. Алгоритм вставки картинки в текст описан ниже. Различать 3 типа тегов просто с помощью косой черты. В строчном теге косая черта перед закрывающей скобкой, в закрывающем блоке после открывающей, в открывающем блоке она отсутствует.

Если вы хотите полностью понять, изучите html. Между html и fb2 есть некоторая разница, хотя во многом они идентичны. Такие элементы я буду указывать по ходу повествования. Также обратите внимание, что xml, в отличие от html, не использует язык CSS, в нашем случае это означает, что в файле fb2 нет указаний на то, как отформатирован текст (размер и цвет шрифта, расположение абзацев и т.д.). Все это мы должны (при желании) реализовать самостоятельно.

Структура fb2-файла

Первый тег <?xml> содержит техническую информацию о формате, его версии и используемой кодировке. Второй тег охватывает всю книгу. Как правило, в любой книге 2 части: описание и основная часть (как в html). Описание содержит имя автора, название книги, аннотацию и т. д. Основная часть содержит заголовки (вся книга или отдельные главы), главы/части/разделы <section> и текст <p> (как в html ). </p><pre><pre class="lang-html prettyprint linenums"><?xml …> <FictionBook …> <description> … </description> <body> … </body> … </FictionBook> </pre></pre><p> Кроме того, вы можете найти теги эпиграфа <epigraph> , ссылку <a> (как в html), изображение <image/> и пустую строку <empty-line></empty-line> (в html <br/> ). Ссылки могут быть внешними и внутренними. Внешние ссылки в качестве параметра содержат исходный URL, внутренние ссылки содержат ссылки на элементы в тексте файла (см. приведенный выше тег изображения). Чертежи содержат аналогичные внутренние ссылки. </a></epigraph></p><p> После раздела </p> могут располагаться дополнительные элементы. Так в отдельные теги <binary> помещаются картинки, преобразованные в текстовую форму. </binary></section>

Создание программы чтения

Мы будем строить нашу программу следующим образом: мы будем считывать данные из файла и конвертировать их в html, затем с помощью функции setHtml (QString) отправлять сгенерированную строку в текстовое поле. Маленький лайфхак для тех, кто хочет изучить html: объект класса QTextEdit/QTextBrowser может отображать отформатированный документ как исходный текст. Для этого откройте редактор формы, кликните по объекту 2 раза и перейдите на вкладку «Источник».

Для обработки fb2-файлов будем использовать класс QXmlStreamReader. Для работы с ним необходимо подключить к проекту модули xml и xmlpatterns. В качестве аргумента ему должен быть передан указатель на объект класса QFile.

QFile f(name);
QXmlStreamReader sr(&f);

Само открытие файла выглядит как цикл с последовательным чтением строк. Нам также нужны 3 переменные

QString book;
QString imgId;
QString imgType;

book нужен для хранения сгенерированного документа, imgId и imgType для вставки картинок в текст. Класс QXmlStreamReader производит несколько важных действий. Сначала он определяет и устанавливает нужный декодер. Во-вторых, он отделяет теги от контента. В-третьих, он выделяет свойства тегов. Мы можем обрабатывать только разделенные данные. Для чтения данных используется функция readNext(). Все прочитанные в него фрагменты относятся к одному из 5 типов: StartDocument, EndDocument, StartElement, EndElement и Characters. Из них 2 первыми определяют начало и конец файла, 2 следующими читают теги и последними получают заполнитель.

Получив StartDocument, нам нужно добавить строку заголовка документа html и 2 открывающих тега

book = "<!DOCTYPE HTML><html><body style=\"font-size:14px\">";

При достижении EndDocument мы закрываем теги, открытые в начале файла

book.append("</body></html>");

Внешний вид StartElement означает, что читается открывающий или строчный тег. Соответственно, EndElement сигнализирует о чтении закрывающего тега. Имя тега определяется вызовом функции sr.name(). Нанизывать (). Для управления структурой документа мы будем хранить список всех открытых тегов в объекте thisToken класса QStringList. Поэтому в случае StartElement добавляет имя текущего тега к thisToken и удаляет его в случае EndElement. Кроме того, открывающие (или строчные) теги могут содержать атрибуты. Атрибут будет прочитан и сохранен в sr как массив строк. Вы можете получить к ним доступ с помощью метода sr.attributes(). Они нужны нам для добавления картинок к тексту. Итак, если тег найден, нужно добавить метку к картинке в тексте.

book.append("<p align=\"center\">"+sr.attributes().at(0).value().toString()+"</p>");

Затем, если мы найдем тег , нам нужно сохранить его тег и формат.

imgId = sr.attributes().at(0).value().toString();
imgType = sr.attributes().at(1).value().toString();

Обратите внимание, что imgId идентичен атрибуту тега , за исключением отсутствия знака диез (#).

Теперь мы можем поместить содержимое только в книгу строк. Здесь вы можете использовать другой набор правил. Например, игнорировать описание книги

if(thisToken.contains("description"))
{
    break; // не выводим
}

или выделить заголовки цветом, размером и типом шрифта. Остановимся только на картинках. Для их вставки необходимо сформировать строку вида

QString image = "<img src=\"data:"
        + imgType +";base64,"
        + sr.text().toString()
        + "\"/>";

где sr.text(). toString() содержит содержимое тега . Затем следует заменить в нашей строке-документе метку, соответствующую этому рисунку на этой строке

book.replace("#"+imgId, image);

Алгоритм чтения fb2-файла

    while( !sr.atEnd() )
    {
        switch( sr.readNext() )
        {
        case QXmlStreamReader::NoToken:
            qDebug() << "QXmlStreamReader::NoToken";
            break;
        case QXmlStreamReader::StartDocument:
            book = "<!DOCTYPE HTML><html><body style=\"font-size:14px\">";
            break;
        case QXmlStreamReader::EndDocument:
            book.append("</body></html>");
            break;
        case QXmlStreamReader::StartElement:
            thisToken.append( sr.name().toString() );
            if( sr.name().toString() == "image" ) // расположение рисунков
            {
                if(sr.attributes().count() > 0)
                    book.append("<p align=\"center\">"+sr.attributes().at(0).value().toString()+"</p>");
            }
            if(sr.name() == "binary") // хранилище рисунков
            {
                imgId = sr.attributes().at(0).value().toString();
                imgType = sr.attributes().at(1).value().toString();
            }
            break;
        case QXmlStreamReader::EndElement:
            if( thisToken.last() == sr.name().toString() )
                thisToken.removeLast();
            else
                qDebug() << "error token";
            break;
        case QXmlStreamReader::Characters:
            if( sr.text().toString().contains( QRegExp("[A-Z]|[a-z]|[А-Я]|[а-я]") )) // если есть текст в блоке
            {
                if(thisToken.contains("description")) // ОПИСАНИЕ КНИГИ
                {
                    break; // не выводим
                }
                if(thisToken.contains("div"))
                    break;
                if(!thisToken.contains( "binary" ))
                    book.append("<p>" + sr.text().toString() + "</p>");
            }
            if(thisToken.contains( "binary" ) )//для рисунков
            {
                QString image = "<img src=\"data:"
                        + imgType +";base64,"
                        + sr.text().toString()
                        + "\"/>";
                book.replace("#"+imgId, image);
            }
            break;
        }
    }

Наш документ готов. Осталось только установить сгенерированную строку в текстовое поле

ui->textBrowser->setHtml(book);

Для полноценной работы fb2-читалки нужно добавить обрабатывающие ссылки, таблицы и некоторые другие объекты. Но приведенного выше материала достаточно, чтобы извлечь основное содержание книги.

Рекомендуем хостинг TIMEWEB
Рекомендуем хостинг TIMEWEB
Стабильный хостинг, на котором располагается социальная сеть EVILEG. Для проектов на Django рекомендуем VDS хостинг.

Вам это нравится? Поделитесь в социальных сетях!

Комментарии

Только авторизованные пользователи могут публиковать комментарии.
Пожалуйста, авторизуйтесь или зарегистрируйтесь
SH
  • Sak Hax
  • 25 апреля 2024 г. 21:00

C++ - Тест 001. Первая программа и типы данных

  • Результат:33баллов,
  • Очки рейтинга-10
г
  • ги
  • 23 апреля 2024 г. 22:51

C++ - Тест 005. Структуры и Классы

  • Результат:41баллов,
  • Очки рейтинга-8
l
  • laei
  • 23 апреля 2024 г. 16:19

C++ - Тест 004. Указатели, Массивы и Циклы

  • Результат:10баллов,
  • Очки рейтинга-10
Последние комментарии
k
kmssr9 февраля 2024 г. 2:43
Qt Linux - Урок 001. Автозапуск Qt приложения под Linux как сделать автозапуск для флэтпака, который не даёт создавать файлы в ~/.config - вот это вопрос ))
АК
Анатолий Кононенко5 февраля 2024 г. 9:50
Qt WinAPI - Урок 007. Работаем с ICMP Ping в Qt Без строки #include <QRegularExpressionValidator> в заголовочном файле не работает валидатор.
EVA
EVA25 декабря 2023 г. 18:30
Boost - статическая линковка в CMake проекте под Windows Ошибка LNK1104 часто возникает, когда компоновщик не может найти или открыть файл библиотеки. В вашем случае, это файл libboost_locale-vc142-mt-gd-x64-1_74.lib из библиотеки Boost для C+…
J
JonnyJo25 декабря 2023 г. 16:38
Boost - статическая линковка в CMake проекте под Windows Сделал всё по-как у вас, но выдаёт ошибку [build] LINK : fatal error LNK1104: не удается открыть файл "libboost_locale-vc142-mt-gd-x64-1_74.lib" Хоть убей, не могу понять в чём дел…
G
Gvozdik19 декабря 2023 г. 5:01
Qt/C++ - Урок 056. Подключение библиотеки Boost в Qt для компиляторов MinGW и MSVC Для решения твой проблемы добавь в файл .pro строчку "LIBS += -lws2_32" она решит проблему , лично мне помогло.
Сейчас обсуждают на форуме
G
Gar22 апреля 2024 г. 12:46
Clipboard Как скопировать окно целиком в clipb?
DA
Dr Gangil Academics20 апреля 2024 г. 14:45
Unlock Your Aesthetic Potential: Explore MSC in Facial Aesthetics and Cosmetology in India Embark on a transformative journey with an msc in facial aesthetics and cosmetology in india . Delve into the intricate world of beauty and rejuvenation, guided by expert faculty and …
a
a_vlasov14 апреля 2024 г. 13:41
Мобильное приложение на C++Qt и бэкенд к нему на Django Rest Framework Евгений, добрый день! Такой вопрос. Верно ли следующее утверждение: Любое Android-приложение, написанное на Java/Kotlin чисто теоретически (пусть и с большими трудностями) можно написать и на C+…
Павел Дорофеев
Павел Дорофеев14 апреля 2024 г. 9:35
QTableWidget с 2 заголовками Вот тут есть кастомный QTableView с многорядностью проект поддерживается, обращайтесь
f
fastrex4 апреля 2024 г. 11:47
Вернуть старое поведение QComboBox, не менять индекс при resetModel Добрый день! У нас много проектов в которых используется QComboBox, в версии 5.5.1, когда модель испускает сигнал resetModel, currentIndex не менялся. В версии 5.15 при resetModel происходит try…

Следите за нами в социальных сетях