Дмитрий
Дмитрий29 августа 2017 г. 15:26

Открываем fb2-файлы средствами Qt

В настоящее время fb2 является популярным форматом для хранения книг. Файл fb2 — это частный случай xml. Основным элементом его структуры, как и для html, являются теги (управляющие слова). В этой статье я покажу вам, как создать простую программу просмотра файлов fb2. Проект с исходным текстом можно скачать по ссылка. .

Главная Информация

Теги делятся на блочные и строчные. Блочные теги группируются попарно от открывающего тега, закрывающего тег, между которым находится контент. Например, абзац текста записывается как

<p>Paragraph text</p>

Внутри такой пары блоков можно поставить другие теги. Теги нижнего регистра используются для объектов, в которые ничего нельзя встроить. Например, указатель на рисунок

<image l:href = “#_0.jpg”/>

содержит информацию: 1) о том, что в данном месте документа необходимо вставить рисунок, 2) ссылку на этот рисунок. Алгоритм вставки картинки в текст описан ниже. Различать 3 типа тегов просто с помощью косой черты. В строчном теге косая черта перед закрывающей скобкой, в закрывающем блоке после открывающей, в открывающем блоке она отсутствует.

Если вы хотите полностью понять, изучите html. Между html и fb2 есть некоторая разница, хотя во многом они идентичны. Такие элементы я буду указывать по ходу повествования. Также обратите внимание, что xml, в отличие от html, не использует язык CSS, в нашем случае это означает, что в файле fb2 нет указаний на то, как отформатирован текст (размер и цвет шрифта, расположение абзацев и т.д.). Все это мы должны (при желании) реализовать самостоятельно.

Структура fb2-файла

Первый тег <?xml> содержит техническую информацию о формате, его версии и используемой кодировке. Второй тег охватывает всю книгу. Как правило, в любой книге 2 части: описание и основная часть (как в html). Описание содержит имя автора, название книги, аннотацию и т. д. Основная часть содержит заголовки (вся книга или отдельные главы), главы/части/разделы <section> и текст <p> (как в html ). </p><pre><pre class="lang-html prettyprint linenums"><?xml …> <FictionBook …> <description> … </description> <body> … </body> … </FictionBook> </pre></pre><p> Кроме того, вы можете найти теги эпиграфа <epigraph> , ссылку <a> (как в html), изображение <image/> и пустую строку <empty-line></empty-line> (в html <br/> ). Ссылки могут быть внешними и внутренними. Внешние ссылки в качестве параметра содержат исходный URL, внутренние ссылки содержат ссылки на элементы в тексте файла (см. приведенный выше тег изображения). Чертежи содержат аналогичные внутренние ссылки. </a></epigraph></p><p> После раздела </p> могут располагаться дополнительные элементы. Так в отдельные теги <binary> помещаются картинки, преобразованные в текстовую форму. </binary></section>

Создание программы чтения

Мы будем строить нашу программу следующим образом: мы будем считывать данные из файла и конвертировать их в html, затем с помощью функции setHtml (QString) отправлять сгенерированную строку в текстовое поле. Маленький лайфхак для тех, кто хочет изучить html: объект класса QTextEdit/QTextBrowser может отображать отформатированный документ как исходный текст. Для этого откройте редактор формы, кликните по объекту 2 раза и перейдите на вкладку «Источник».

Для обработки fb2-файлов будем использовать класс QXmlStreamReader. Для работы с ним необходимо подключить к проекту модули xml и xmlpatterns. В качестве аргумента ему должен быть передан указатель на объект класса QFile.

QFile f(name);
QXmlStreamReader sr(&f);

Само открытие файла выглядит как цикл с последовательным чтением строк. Нам также нужны 3 переменные

QString book;
QString imgId;
QString imgType;

book нужен для хранения сгенерированного документа, imgId и imgType для вставки картинок в текст. Класс QXmlStreamReader производит несколько важных действий. Сначала он определяет и устанавливает нужный декодер. Во-вторых, он отделяет теги от контента. В-третьих, он выделяет свойства тегов. Мы можем обрабатывать только разделенные данные. Для чтения данных используется функция readNext(). Все прочитанные в него фрагменты относятся к одному из 5 типов: StartDocument, EndDocument, StartElement, EndElement и Characters. Из них 2 первыми определяют начало и конец файла, 2 следующими читают теги и последними получают заполнитель.

Получив StartDocument, нам нужно добавить строку заголовка документа html и 2 открывающих тега

book = "<!DOCTYPE HTML><html><body style=\"font-size:14px\">";

При достижении EndDocument мы закрываем теги, открытые в начале файла

book.append("</body></html>");

Внешний вид StartElement означает, что читается открывающий или строчный тег. Соответственно, EndElement сигнализирует о чтении закрывающего тега. Имя тега определяется вызовом функции sr.name(). Нанизывать (). Для управления структурой документа мы будем хранить список всех открытых тегов в объекте thisToken класса QStringList. Поэтому в случае StartElement добавляет имя текущего тега к thisToken и удаляет его в случае EndElement. Кроме того, открывающие (или строчные) теги могут содержать атрибуты. Атрибут будет прочитан и сохранен в sr как массив строк. Вы можете получить к ним доступ с помощью метода sr.attributes(). Они нужны нам для добавления картинок к тексту. Итак, если тег найден, нужно добавить метку к картинке в тексте.

book.append("<p align=\"center\">"+sr.attributes().at(0).value().toString()+"</p>");

Затем, если мы найдем тег , нам нужно сохранить его тег и формат.

imgId = sr.attributes().at(0).value().toString();
imgType = sr.attributes().at(1).value().toString();

Обратите внимание, что imgId идентичен атрибуту тега , за исключением отсутствия знака диез (#).

Теперь мы можем поместить содержимое только в книгу строк. Здесь вы можете использовать другой набор правил. Например, игнорировать описание книги

if(thisToken.contains("description"))
{
    break; // не выводим
}

или выделить заголовки цветом, размером и типом шрифта. Остановимся только на картинках. Для их вставки необходимо сформировать строку вида

QString image = "<img src=\"data:"
        + imgType +";base64,"
        + sr.text().toString()
        + "\"/>";

где sr.text(). toString() содержит содержимое тега . Затем следует заменить в нашей строке-документе метку, соответствующую этому рисунку на этой строке

book.replace("#"+imgId, image);

Алгоритм чтения fb2-файла

    while( !sr.atEnd() )
    {
        switch( sr.readNext() )
        {
        case QXmlStreamReader::NoToken:
            qDebug() << "QXmlStreamReader::NoToken";
            break;
        case QXmlStreamReader::StartDocument:
            book = "<!DOCTYPE HTML><html><body style=\"font-size:14px\">";
            break;
        case QXmlStreamReader::EndDocument:
            book.append("</body></html>");
            break;
        case QXmlStreamReader::StartElement:
            thisToken.append( sr.name().toString() );
            if( sr.name().toString() == "image" ) // расположение рисунков
            {
                if(sr.attributes().count() > 0)
                    book.append("<p align=\"center\">"+sr.attributes().at(0).value().toString()+"</p>");
            }
            if(sr.name() == "binary") // хранилище рисунков
            {
                imgId = sr.attributes().at(0).value().toString();
                imgType = sr.attributes().at(1).value().toString();
            }
            break;
        case QXmlStreamReader::EndElement:
            if( thisToken.last() == sr.name().toString() )
                thisToken.removeLast();
            else
                qDebug() << "error token";
            break;
        case QXmlStreamReader::Characters:
            if( sr.text().toString().contains( QRegExp("[A-Z]|[a-z]|[А-Я]|[а-я]") )) // если есть текст в блоке
            {
                if(thisToken.contains("description")) // ОПИСАНИЕ КНИГИ
                {
                    break; // не выводим
                }
                if(thisToken.contains("div"))
                    break;
                if(!thisToken.contains( "binary" ))
                    book.append("<p>" + sr.text().toString() + "</p>");
            }
            if(thisToken.contains( "binary" ) )//для рисунков
            {
                QString image = "<img src=\"data:"
                        + imgType +";base64,"
                        + sr.text().toString()
                        + "\"/>";
                book.replace("#"+imgId, image);
            }
            break;
        }
    }

Наш документ готов. Осталось только установить сгенерированную строку в текстовое поле

ui->textBrowser->setHtml(book);

Для полноценной работы fb2-читалки нужно добавить обрабатывающие ссылки, таблицы и некоторые другие объекты. Но приведенного выше материала достаточно, чтобы извлечь основное содержание книги.

Рекомендуем хостинг TIMEWEB
Рекомендуем хостинг TIMEWEB
Стабильный хостинг, на котором располагается социальная сеть EVILEG. Для проектов на Django рекомендуем VDS хостинг.

Вам это нравится? Поделитесь в социальных сетях!

Комментарии

Только авторизованные пользователи могут публиковать комментарии.
Пожалуйста, авторизуйтесь или зарегистрируйтесь
AD

C++ - Тест 004. Указатели, Массивы и Циклы

  • Результат:50баллов,
  • Очки рейтинга-4
m
  • molni99
  • 26 октября 2024 г. 1:37

C++ - Тест 004. Указатели, Массивы и Циклы

  • Результат:80баллов,
  • Очки рейтинга4
m
  • molni99
  • 26 октября 2024 г. 1:29

C++ - Тест 004. Указатели, Массивы и Циклы

  • Результат:20баллов,
  • Очки рейтинга-10
Последние комментарии
ИМ
Игорь Максимов22 ноября 2024 г. 11:51
Django - Урок 017. Кастомизированная страница авторизации на Django Добрый вечер Евгений! Я сделал себе авторизацию аналогичную вашей, все работает, кроме возврата к предидущей странице. Редеректит всегда на главную, хотя в логах сервера вижу запросы на правильн…
Evgenii Legotckoi
Evgenii Legotckoi31 октября 2024 г. 14:37
Django - Урок 064. Как написать расширение для Python Markdown Добрый день. Да, можно. Либо через такие же плагины, либо с постобработкой через python библиотеку Beautiful Soup
A
ALO1ZE19 октября 2024 г. 8:19
Читалка fb3-файлов на Qt Creator Подскажите как это запустить? Я не шарю в программировании и кодинге. Скачал и установаил Qt, но куча ошибок выдается и не запустить. А очень надо fb3 переконвертировать в html
ИМ
Игорь Максимов5 октября 2024 г. 7:51
Django - Урок 064. Как написать расширение для Python Markdown Приветствую Евгений! У меня вопрос. Можно ли вставлять свои классы в разметку редактора markdown? Допустим имея стандартную разметку: <ul> <li></li> <li></l…
d
dblas55 июля 2024 г. 11:02
QML - Урок 016. База данных SQLite и работа с ней в QML Qt Здравствуйте, возникает такая проблема (я новичок): ApplicationWindow неизвестный элемент. (М300) для TextField и Button аналогично. Могу предположить, что из-за более новой верси…
Сейчас обсуждают на форуме
Evgenii Legotckoi
Evgenii Legotckoi24 июня 2024 г. 15:11
добавить qlineseries в функции Я тут. Работы оень много. Отправил его в бан.
t
tonypeachey115 ноября 2024 г. 6:04
google domain [url=https://google.com/]domain[/url] domain [http://www.example.com link title]
NSProject
NSProject4 июня 2022 г. 3:49
Всё ещё разбираюсь с кешем. В следствии прочтения данной статьи. Я принял для себя решение сделать кеширование свойств менеджера модели LikeDislike. И так как установка evileg_core для меня не была возможна, ибо он писался…
9
9Anonim25 октября 2024 г. 9:10
Машина тьюринга // Начальное состояние 0 0, ,<,1 // Переход в состояние 1 при пустом символе 0,0,>,0 // Остаемся в состоянии 0, двигаясь вправо при встрече 0 0,1,>…

Следите за нами в социальных сетях