Дмитрий
ДмитрийТам. 29, 2017, 3:26 Т.Қ.

Qt көмегімен fb2 файлдарын ашу

В настоящее время fb2 является популярным форматом для хранения книг. Файл fb2 — это частный случай xml. Основным элементом его структуры, как и для html, являются теги (управляющие слова). В этой статье я покажу вам, как создать простую программу просмотра файлов fb2. Проект с исходным текстом можно скачать по ссылка. .

Главная Информация

Теги делятся на блочные и строчные. Блочные теги группируются попарно от открывающего тега, закрывающего тег, между которым находится контент. Например, абзац текста записывается как

<p>Paragraph text</p>

Внутри такой пары блоков можно поставить другие теги. Теги нижнего регистра используются для объектов, в которые ничего нельзя встроить. Например, указатель на рисунок

<image l:href = “#_0.jpg”/>

содержит информацию: 1) о том, что в данном месте документа необходимо вставить рисунок, 2) ссылку на этот рисунок. Алгоритм вставки картинки в текст описан ниже. Различать 3 типа тегов просто с помощью косой черты. В строчном теге косая черта перед закрывающей скобкой, в закрывающем блоке после открывающей, в открывающем блоке она отсутствует.

Если вы хотите полностью понять, изучите html. Между html и fb2 есть некоторая разница, хотя во многом они идентичны. Такие элементы я буду указывать по ходу повествования. Также обратите внимание, что xml, в отличие от html, не использует язык CSS, в нашем случае это означает, что в файле fb2 нет указаний на то, как отформатирован текст (размер и цвет шрифта, расположение абзацев и т.д.). Все это мы должны (при желании) реализовать самостоятельно.

Структура fb2-файла

Первый тег <?xml> содержит техническую информацию о формате, его версии и используемой кодировке. Второй тег охватывает всю книгу. Как правило, в любой книге 2 части: описание и основная часть (как в html). Описание содержит имя автора, название книги, аннотацию и т. д. Основная часть содержит заголовки (вся книга или отдельные главы), главы/части/разделы <section> и текст <p> (как в html ). </p><pre><pre class="lang-html prettyprint linenums"><?xml …> <FictionBook …> <description> … </description> <body> … </body> … </FictionBook> </pre></pre><p> Кроме того, вы можете найти теги эпиграфа <epigraph> , ссылку <a> (как в html), изображение <image/> и пустую строку <empty-line></empty-line> (в html <br/> ). Ссылки могут быть внешними и внутренними. Внешние ссылки в качестве параметра содержат исходный URL, внутренние ссылки содержат ссылки на элементы в тексте файла (см. приведенный выше тег изображения). Чертежи содержат аналогичные внутренние ссылки. </a></epigraph></p><p> После раздела </p> могут располагаться дополнительные элементы. Так в отдельные теги <binary> помещаются картинки, преобразованные в текстовую форму. </binary></section>

Создание программы чтения

Мы будем строить нашу программу следующим образом: мы будем считывать данные из файла и конвертировать их в html, затем с помощью функции setHtml (QString) отправлять сгенерированную строку в текстовое поле. Маленький лайфхак для тех, кто хочет изучить html: объект класса QTextEdit/QTextBrowser может отображать отформатированный документ как исходный текст. Для этого откройте редактор формы, кликните по объекту 2 раза и перейдите на вкладку «Источник».

Для обработки fb2-файлов будем использовать класс QXmlStreamReader. Для работы с ним необходимо подключить к проекту модули xml и xmlpatterns. В качестве аргумента ему должен быть передан указатель на объект класса QFile.

QFile f(name);
QXmlStreamReader sr(&f);

Само открытие файла выглядит как цикл с последовательным чтением строк. Нам также нужны 3 переменные

QString book;
QString imgId;
QString imgType;

book нужен для хранения сгенерированного документа, imgId и imgType для вставки картинок в текст. Класс QXmlStreamReader производит несколько важных действий. Сначала он определяет и устанавливает нужный декодер. Во-вторых, он отделяет теги от контента. В-третьих, он выделяет свойства тегов. Мы можем обрабатывать только разделенные данные. Для чтения данных используется функция readNext(). Все прочитанные в него фрагменты относятся к одному из 5 типов: StartDocument, EndDocument, StartElement, EndElement и Characters. Из них 2 первыми определяют начало и конец файла, 2 следующими читают теги и последними получают заполнитель.

Получив StartDocument, нам нужно добавить строку заголовка документа html и 2 открывающих тега

book = "<!DOCTYPE HTML><html><body style=\"font-size:14px\">";

При достижении EndDocument мы закрываем теги, открытые в начале файла

book.append("</body></html>");

Внешний вид StartElement означает, что читается открывающий или строчный тег. Соответственно, EndElement сигнализирует о чтении закрывающего тега. Имя тега определяется вызовом функции sr.name(). Нанизывать (). Для управления структурой документа мы будем хранить список всех открытых тегов в объекте thisToken класса QStringList. Поэтому в случае StartElement добавляет имя текущего тега к thisToken и удаляет его в случае EndElement. Кроме того, открывающие (или строчные) теги могут содержать атрибуты. Атрибут будет прочитан и сохранен в sr как массив строк. Вы можете получить к ним доступ с помощью метода sr.attributes(). Они нужны нам для добавления картинок к тексту. Итак, если тег найден, нужно добавить метку к картинке в тексте.

book.append("<p align=\"center\">"+sr.attributes().at(0).value().toString()+"</p>");

Затем, если мы найдем тег , нам нужно сохранить его тег и формат.

imgId = sr.attributes().at(0).value().toString();
imgType = sr.attributes().at(1).value().toString();

Обратите внимание, что imgId идентичен атрибуту тега , за исключением отсутствия знака диез (#).

Теперь мы можем поместить содержимое только в книгу строк. Здесь вы можете использовать другой набор правил. Например, игнорировать описание книги

if(thisToken.contains("description"))
{
    break; // не выводим
}

или выделить заголовки цветом, размером и типом шрифта. Остановимся только на картинках. Для их вставки необходимо сформировать строку вида

QString image = "<img src=\"data:"
        + imgType +";base64,"
        + sr.text().toString()
        + "\"/>";

где sr.text(). toString() содержит содержимое тега . Затем следует заменить в нашей строке-документе метку, соответствующую этому рисунку на этой строке

book.replace("#"+imgId, image);

Алгоритм чтения fb2-файла

    while( !sr.atEnd() )
    {
        switch( sr.readNext() )
        {
        case QXmlStreamReader::NoToken:
            qDebug() << "QXmlStreamReader::NoToken";
            break;
        case QXmlStreamReader::StartDocument:
            book = "<!DOCTYPE HTML><html><body style=\"font-size:14px\">";
            break;
        case QXmlStreamReader::EndDocument:
            book.append("</body></html>");
            break;
        case QXmlStreamReader::StartElement:
            thisToken.append( sr.name().toString() );
            if( sr.name().toString() == "image" ) // расположение рисунков
            {
                if(sr.attributes().count() > 0)
                    book.append("<p align=\"center\">"+sr.attributes().at(0).value().toString()+"</p>");
            }
            if(sr.name() == "binary") // хранилище рисунков
            {
                imgId = sr.attributes().at(0).value().toString();
                imgType = sr.attributes().at(1).value().toString();
            }
            break;
        case QXmlStreamReader::EndElement:
            if( thisToken.last() == sr.name().toString() )
                thisToken.removeLast();
            else
                qDebug() << "error token";
            break;
        case QXmlStreamReader::Characters:
            if( sr.text().toString().contains( QRegExp("[A-Z]|[a-z]|[А-Я]|[а-я]") )) // если есть текст в блоке
            {
                if(thisToken.contains("description")) // ОПИСАНИЕ КНИГИ
                {
                    break; // не выводим
                }
                if(thisToken.contains("div"))
                    break;
                if(!thisToken.contains( "binary" ))
                    book.append("<p>" + sr.text().toString() + "</p>");
            }
            if(thisToken.contains( "binary" ) )//для рисунков
            {
                QString image = "<img src=\"data:"
                        + imgType +";base64,"
                        + sr.text().toString()
                        + "\"/>";
                book.replace("#"+imgId, image);
            }
            break;
        }
    }

Наш документ готов. Осталось только установить сгенерированную строку в текстовое поле

ui->textBrowser->setHtml(book);

Для полноценной работы fb2-читалки нужно добавить обрабатывающие ссылки, таблицы и некоторые другие объекты. Но приведенного выше материала достаточно, чтобы извлечь основное содержание книги.

Рекомендуем хостинг TIMEWEB
Рекомендуем хостинг TIMEWEB
Стабильный хостинг, на котором располагается социальная сеть EVILEG. Для проектов на Django рекомендуем VDS хостинг.

Ол саған ұнайды ма? Әлеуметтік желілерде бөлісіңіз!

Пікірлер

Тек рұқсаты бар пайдаланушылар ғана пікір қалдыра алады.
Кіріңіз немесе Тіркеліңіз
AD

C++ - Тест 004. Указатели, Массивы и Циклы

  • Нәтиже:50ұпай,
  • Бағалау ұпайлары-4
m
  • molni99
  • Қаз. 26, 2024, 1:37 Т.Ж.

C++ - Тест 004. Указатели, Массивы и Циклы

  • Нәтиже:80ұпай,
  • Бағалау ұпайлары4
m
  • molni99
  • Қаз. 26, 2024, 1:29 Т.Ж.

C++ - Тест 004. Указатели, Массивы и Циклы

  • Нәтиже:20ұпай,
  • Бағалау ұпайлары-10
Соңғы пікірлер
ИМ
Игорь МаксимовҚар. 22, 2024, 11:51 Т.Ж.
Django - Оқулық 017. Теңшелген Django кіру беті Добрый вечер Евгений! Я сделал себе авторизацию аналогичную вашей, все работает, кроме возврата к предидущей странице. Редеректит всегда на главную, хотя в логах сервера вижу запросы на правильн…
Evgenii Legotckoi
Evgenii LegotckoiҚаз. 31, 2024, 2:37 Т.Қ.
Django - Сабақ 064. Python Markdown кеңейтімін қалай жазуға болады Добрый день. Да, можно. Либо через такие же плагины, либо с постобработкой через python библиотеку Beautiful Soup
A
ALO1ZEҚаз. 19, 2024, 8:19 Т.Ж.
Qt Creator көмегімен fb3 файл оқу құралы Подскажите как это запустить? Я не шарю в программировании и кодинге. Скачал и установаил Qt, но куча ошибок выдается и не запустить. А очень надо fb3 переконвертировать в html
ИМ
Игорь МаксимовҚаз. 5, 2024, 7:51 Т.Ж.
Django - Сабақ 064. Python Markdown кеңейтімін қалай жазуға болады Приветствую Евгений! У меня вопрос. Можно ли вставлять свои классы в разметку редактора markdown? Допустим имея стандартную разметку: <ul> <li></li> <li></l…
d
dblas5Шілде 5, 2024, 11:02 Т.Ж.
QML - Сабақ 016. SQLite деректер қоры және онымен QML Qt-та жұмыс істеу Здравствуйте, возникает такая проблема (я новичок): ApplicationWindow неизвестный элемент. (М300) для TextField и Button аналогично. Могу предположить, что из-за более новой верси…
Енді форумда талқылаңыз
m
moogoҚар. 22, 2024, 7:17 Т.Ж.
Mosquito Spray System Effective Mosquito Systems for Backyard | Eco-Friendly Misting Control Device & Repellent Spray - Moogo ; Upgrade your backyard with our mosquito-repellent device! Our misters conce…
Evgenii Legotckoi
Evgenii LegotckoiМаусым 24, 2024, 3:11 Т.Қ.
добавить qlineseries в функции Я тут. Работы оень много. Отправил его в бан.
t
tonypeachey1Қар. 15, 2024, 6:04 Т.Ж.
google domain [url=https://google.com/]domain[/url] domain [http://www.example.com link title]
NSProject
NSProjectМаусым 4, 2022, 3:49 Т.Ж.
Всё ещё разбираюсь с кешем. В следствии прочтения данной статьи. Я принял для себя решение сделать кеширование свойств менеджера модели LikeDislike. И так как установка evileg_core для меня не была возможна, ибо он писался…

Бізді әлеуметтік желілерде бақылаңыз