Oct. 4, 2019, 7:36 a.m.

XML парсинг сложного тега <tag1> text part 1 <tag2> text </tag2> text part 2 </tag1>

Всем доброго времени суток.
Например есть вот такой тег:

<tag1> any text part 1 <tag2> text </tag2> any text part 2 </tag1>

Как реализовать корректное чтение и запись такой конструкции в объектную модель и модель QDom? С таким тегом сталкиваюсь впервые, поэтому не совсем понятно как действовать в такой ситуации.

Всем спасибо за помощь в решении даннго о вопроса.

We recommend hosting TIMEWEB
We recommend hosting TIMEWEB
Stable hosting, on which the social network EVILEG is located. For projects on Django we recommend VDS hosting.
7

Я там описался, закрывающий последний тег - это

</tag1>

Добрый день.
А какой хотите получить итоговый результат? В том же QDomNode есть метод QDomNode::childNodes(), который возвратит список все вложенных тегов.

То есть как раз для подобных случаев

<body>
<h1>Heading</h1>
<p>Hello <b>you</b></p>
</body>

Евгений, задача у меня следующая:
1. Есть файл XML.
2. Есть объектная модель, которая соответствует файлу XML.
Мне нужно прорпарсить xml файл и записать значения в объектную модель.
Я написал следующий код, примерный:

#include <iostream>
#include <QtXml/QDomDocument>
#include <QFile>
#include <QTextStream>

int main()
{
    QDomDocument doc;
    doc.appendChild(doc.createProcessingInstruction("xml", "version=\"1.0\" encoding=\"UTF-8\""));
    QDomElement element = doc.createElement("element");
    element.appendChild(doc.createTextNode("TEXT 1"));
    QDomElement element1 = doc.createElement("element1");
    element1.appendChild(doc.createTextNode("text1"));
    element.appendChild(element1);
    element.appendChild(doc.createTextNode("TEXT 2"));
    doc.appendChild(element);
    QFile file("C:/TEMP/test.xml");
    if(file.open(QIODevice::WriteOnly)){
        QTextStream out(&file);
        out.setCodec("UTF-8");
        out << doc.toString();
        file.close();
    }
    std::cout << "start import" << std::endl;

    QDomDocument doc1;

    if(!file.open(QIODevice::ReadOnly | QIODevice::Text))
    {
        std::cout << "File not exist";
        return -1;
    }
    if(!doc1.setContent(&file)){
        file.close();
        return -1;
    }
    file.close();
        QDomNode node = doc1.firstChild();
            while (!node.isNull()) {
                QDomElement el1 = node.toElement();
                std::cout << el1.tagName().toStdString() + el1.text().toStdString();
                if(el1.hasChildNodes()){
                    QDomNode node1 = el1.firstChild();
                    while (!node1.isNull()) {
                        QDomElement el2 = node1.toElement();
                        std::cout << el2.tagName().toStdString() + " " + el2.text().toStdString() << std::endl;
                        node1 = node1.nextSibling();
                    }
                }
                node = node.nextSibling();
            }
    return 0;
}

Так вот после создания файла XML получаю вот такое содержимое файла:

<?xml version="1.0" encoding="UTF-8"?>
<element>TEXT 1<element1>text1</element1>TEXT 2</element>


И у меня вопрос, как это записать в объектную модель. И не только записать, но и при обратном парсинге получить такой же файл, т.е. чтобы теги и значения стояли в тех же местах. На просторах Интернета рассматриваются исключительно тривиальные задачи и нет ничего походего на мой случай.

Думаю, что вам также нужно какое-то дерево. Например, какой-нибудь TreeItem, который будет отражать одну ноду, и все child TreeItem будут сохраняться в в вектор, чтобы сохранять порядок элементов в теге.

Что-нибудь вроде такого

class TreeItem
{
public:
    TreeItem(TreeItem* parent = nullptr)
    {
        if (parent)
        {
            parent->addChild(this);
        }
    }

    void addChild(TreeItem* child)
    {
        m_children.push_back(child);
    }

private:
    TreeItem* m_parent;
    std::vector<TreeItem*> m_children;
}

QDomDocument - это тоже дерево. Поэтому при прохождении тегов можно составить своё собственное дерево. Но нужно понимать конечную цель.

Евгений, я думаю, что тут нужно будет разбирать строку. Дерево из QDomElement я построить могу - это не является какой-то сложной задачей. Задача не тривиальная потому, что если текст разбит на части внутри одного тега и эти части могут быть обернуты в дргуие теги, то, если взять значение головного тега, то он вернет строку целиком, т.е. захватит и текст других тегов. Вот в чем задача. Как разобрать строку и вернуть ее обратно именно в той последовательности, которая присутвует в файле. Есть наметки, но нужно проверить.

Евгений, а можно тогда уточнить вот такой момент. Были ли у вас случаи плана Мама мыла раму ? У меня собственно вопрос именно в этом, как взять и положить текст так в объект класса, чтобы потом модно было посторить обратно вышеописанную последовательность тегов?

Добрый день.

Нет, я таким не сталкивался, но вот таким образом вы можете разбить тот тег, на ноды, и забрать текст в нормально порядке, а потом вам уже не составит труда, как я думаю, записать всё обратно.

#include <iostream>
#include <QtXml/QDomDocument>
#include <QFile>
#include <QTextStream>
#include <QDebug>

int main()
{
    QDomDocument doc;
    doc.appendChild(doc.createProcessingInstruction("xml", "version=\"1.0\" encoding=\"UTF-8\""));
    QDomElement element = doc.createElement("element");
    element.appendChild(doc.createTextNode("TEXT 1"));
    QDomElement element1 = doc.createElement("element1");
    element1.appendChild(doc.createTextNode("text1"));
    element.appendChild(element1);
    element.appendChild(doc.createTextNode("TEXT 2"));
    doc.appendChild(element);
    QFile file("/home/dekadent/test.xml");
    if(file.open(QIODevice::WriteOnly)){
        QTextStream out(&file);
        out.setCodec("UTF-8");
        out << doc.toString();
        file.close();
    }
    std::cout << "start import" << std::endl;

    QDomDocument doc1;

    if(!file.open(QIODevice::ReadOnly | QIODevice::Text))
    {
        std::cout << "File not exist";
        return -1;
    }
    if(!doc1.setContent(&file)){
        file.close();
        return -1;
    }

    file.close();
    QDomNode node = doc1.firstChild();

    while (!node.isNull()) {
        QDomElement el1 = node.toElement();
        std::cout << el1.tagName().toStdString() << " " << el1.text().toStdString() << std::endl;
        if(el1.hasChildNodes()){
            std::cout << "size of child nodes " << el1.childNodes().size() << std::endl;
            for (int i = 0; i < el1.childNodes().size(); ++i)
            {
                std::cout << i << std::endl;
                QDomNode node2 = el1.childNodes().item(i);
                if (node2.isText())
                {
                    // Это текстовая нода, нужна иная обработка.
                    std::cout << node2.toText().data().toStdString();
                }
                QDomElement el2 =  node2.toElement();
                std::cout << el2.tagName().toStdString() << " " << el2.text().toStdString() << std::endl;
            }
        }
        node = node.nextSibling();
    }
    return 0;
}

Весь прикол в том, что метод nextSibling() , который вы использовали, не работает на текстовые ноды, то есть на QDomText. Я сам об этом не знал. Сейчас только попробовал, поэкспериментировал и догадался, как это дело работает.

Comments

Only authorized users can post comments.
Please, Log in or Sign up
Donate

Hello, Dear Users of EVILEG!!!

If the site helped you, then support the development of the site financially, please.

You can do it by following ways:

Thank you, Evgenii Legotckoi

SF
Jan. 27, 2020, 5:10 a.m.
Sergei Filin

C++ - Test 001. The first program and data types

  • Result:73points,
  • Rating points1
BM
Jan. 25, 2020, 1:16 p.m.
Bekzod Muminov

C++ - Test 001. The first program and data types

  • Result:53points,
  • Rating points-4
BM
Jan. 25, 2020, 1:04 p.m.
Bekzod Muminov

C ++ - Test 004. Pointers, Arrays and Loops

  • Result:20points,
  • Rating points-10
Last comments
m
Jan. 27, 2020, 9:53 a.m.
michaeldevp

Единственная проблема состоит в том, что для выделения QCheckBox приходится дважны нажимать мышь. Получается что сначала выделяется ячейка. а только потом фокус уже попадает на виджет. …
Jan. 27, 2020, 1:01 a.m.
Ruslan Polupan

Да так, посмотрел библиотеку попробовал примеры...
s
Jan. 26, 2020, 2:51 p.m.
shame

Чего не webassembly?
Jan. 21, 2020, 2:12 p.m.
Docent

Полезная статья. Как всегда - то что надо. Добавлю ещё маленькую полезность - после установки tracer (88 строка) и перед выводом значений в lineEdit (91 строка) стоит добавить updatePositio…
Jan. 17, 2020, 2:31 a.m.
Andrej Jankovich

Выглядит как ошибка библиотеки. Расскажите подробно на какой платформе вы собираете проект (MinGW или MSVC) их версии и версии Qt.
Now discuss on the forum
Jan. 27, 2020, 3:17 a.m.
Il'ja Chichak

а почему бы не сделать одну модель, например Attachement со всеми этими полями, и в зависимости от действия пользователя, например, "добавить документ", "добавить картинку" и т.д. класть все это…
E
Jan. 26, 2020, 11:42 a.m.
Edi

Другого способа, как получать перезагруженный контент через JavaScript на странице, я не знаю. Получилось сделать без QWebEngineView, с помощью QWebEnginePage, runJavaScrip…
E
Jan. 26, 2020, 11:14 a.m.
Edi

Да, я не понял до конца того, как это работает, мало опыта работы с qt и QVAriant ни разу не использовал. Спасибо за помощь)
VZ
Jan. 26, 2020, 4:11 a.m.
Vladimir Zhitkovsky

Да, спасибо порешалось таким образом: удаление одного for(int i = 0; i < lstData.count(); ++i){ auto *data= dynamic_cast<Data*>(lstData[i]); if(data) { if(…
Jan. 14, 2020, 9:04 a.m.
Ruslan Volshebnik

Проблема осталась. Но я выснил, что это происходит когда файл достигает максимального размера.
EVILEG
About
Services
© EVILEG 2015-2019
Recommend hosting TIMEWEB