KL
Konstantin LazarevMay 13, 2017, 2:06 a.m.

Аналог jsoup для Qt

Доброе утро, подскажите пожалуйста, в Qt есть аналог библиотеки jsoup. Библиотека позволяет доставать любые теги из спарсеного документа.

We recommend hosting TIMEWEB
We recommend hosting TIMEWEB
Stable hosting, on which the social network EVILEG is located. For projects on Django we recommend VDS hosting.

Do you like it? Share on social networks!

16
Evgenii Legotckoi
  • May 13, 2017, 2:20 a.m.

Добрый день!

Если только на гитхабе кто-нибудь выложил нечто подобное, поскольку такая библиотека, если бы она была, была бы очень известна.

А так могу предложить варианты либо с QXmlStreamReader , QXmlStreamWriter , либо с QDomDocument .

Впрочем, настоятельно рекомендую обратить внимание на QDomDocument , там есть методы по получению тегов по имени или id.

Если бы Вы писали на PyQt5, то я порекомендовал бы ещё обратить внимание на Python библиотеку BeautifulSoup 4 , она очень хороша, несмотря на немного неочевидные некоторые моменты в работе. У меня на сайте комментарии и ответы на форуме именно этой библиотекой обрабатываются перед публикацией. Но QDomDocument вполне себе реализует необходимый функционал по извлечению необходимых тегов, разве только нет методов, которые бы по классам или атрибутам выдёргивали необходимые теги, но можно в цикле запросто найти нужный тег из QDomNodeList .

    KL
    • May 13, 2017, 2:35 a.m.

    Можно пару строк кода, для лучшего понимания, как вытащить только title из спарсеного документа.

      Evgenii Legotckoi
      • May 13, 2017, 2:37 a.m.

      Можно, но только покажите, как у вас тег title выглядит в HTML документе.

        Evgenii Legotckoi
        • May 13, 2017, 8:02 a.m.

        Так. Ну я увидел, как выглядит этот тег в логах об ошибке. Накидаю пример.
        В следующий раз, просьба, вставлять HTML код через диалог вставки кода. (Надо будет подумать, как пофиксить этот баг)

          Evgenii Legotckoi
          • May 13, 2017, 8:46 a.m.

          Допустим тогда, есть вот такой кусок HTML кода:

          <!DOCTYPE html>
          <html>
             <head>
                <title>
                   A Small Hello
                </title>
             </head>
          <body>
             <h1>Hi</h1>
             <p>This is very minimal "hello world" HTML document.</p>
          </body>
          </html>

          Следовательно, нужно получить текст, который содержится в title . Для этого в pro файле необходимо подключить модуль xml

          QT += xml

          И воспользоваться возможностями QDomDocument

          QDomDocument doc;
          // Дергал этот html документ из ресурсов
          QFile file(":/example.html");
          
          // Если не удалось открыть файл, то возвращаемся из метода
          if (!file.open(QIODevice::ReadOnly) || !doc.setContent(&file))
              return;
          
          // Получаем список всех тегов title
          QDomNodeList titlesList = doc.elementsByTagName("title");
          // Поскольку title обычно один, то берём его Ноду из списка по нулевому индексу
          QDomNode titleNode = titlesList.item(0);
          // Преобразуем Ноду в элемент
          QDomElement element = titleNode.toElement();
          // Тогда получится забрать текст из тега
          qDebug() << element.text();
            KL
            • May 13, 2017, 8:50 a.m.

            А этот модуль работает с удаленными файлами?

            <?xml version="1.0" encoding="utf-8"?>
            <yandexsearch version="1.0">
              <request>
                <query>
                  Платные комментарии
                </query>
                <page>
                  0
                </page>
                <sortby order="descending" priority="no">
                  rlv
                </sortby>
                <maxpassages>
                </maxpassages>
                <groupings>
                  <groupby attr="" mode="flat" groups-on-page="10" docs-in-group="1" curcateg="-1" />
                </groupings>
              </request>
              <response date="20170513T124911">
                <reqid>
                  1494679751371064-722144758077498024982079-sas1-1417-XML
                </reqid>
                <found priority="phrase">
                  31179652
                </found>
                <found priority="strict">
                  31179652
                </found>
                <found priority="all">
                  31179652
                </found>
                <found-human>
                  Нашёлся 31 млн ответов
                  </found-human>
                <results>
                  <grouping attr="" mode="flat" groups-on-page="10" docs-in-group="1" curcateg="-1">
                    <found priority="phrase">
                      140673
                    </found>
                    <found priority="strict">
                      140673
                    </found>
                    <found priority="all">
                      140673
                    </found>
                    <found-docs priority="phrase">
                      229751
                      </found-docs>
                    <found-docs priority="strict">
                      229751
                      </found-docs>
                    <found-docs priority="all">
                      229751
                      </found-docs>
                    <found-docs-human>
                      нашёл 230 тыс. ответов
                      </found-docs-human>
                    <page first="1" last="10">
                      0
                    </page>
                    <group>
                      <doccount>
                        1
                      </doccount>
                      <relevance />
                      <doc id="Z1CDC9256CCB9C8B0">
                        <relevance />
                        <url>
                          http://inetsovety.ru/zarabotok-na-kommentariyah-gde-zarabotaty-denygi/
                        </url>
                        <domain>
                          inetsovety.ru
                        </domain>
                        <title>
                          Заработок на 
                          <hlword>
                            комментариях
                          </hlword>
                          . Где платят деньги за 
                          <hlword>
                            комментарии
                          </hlword>
                          ?
                        </title>
              KL
              • May 13, 2017, 8:51 a.m.

              Вот такое мне выдает Яндекс, я могу его обработать с помощью данного класса?

                KL
                • May 13, 2017, 8:54 a.m.

                При помощи QNetworkAccessManager я могу получить html текст, а яндекс отдает xml файл, думаю ошибка кроется здесь.

                  Evgenii Legotckoi
                  • May 13, 2017, 9:03 a.m.

                  Без разницы. QNetworkAccessManager может забрать как html , так и xml текст. А QDomDocument и остальные сопутствующие классы входят в состав модуля xml , что само по себе говорит о том, что он заточен под работу с xml, да и html код - это тот же самый xml, только у него есть определённый стандарт.

                  Так что ошибка скорее всего в том, что не совсем правильно забираете данные из ответа QNetworkAccessManager`а

                    KL
                    • May 13, 2017, 9:21 a.m.

                    ERROR "Unable to init SSL Context: " Вот что выдает приложение, но с Google все отлично работает.

                      KL
                      • May 13, 2017, 9:50 a.m.

                      Подскажите как быть с тегами a или картинками?

                        KL
                        • May 13, 2017, 10 a.m.

                        Как вывести дерево доступных элементов, которые хранятся в doc?

                          Evgenii Legotckoi
                          • May 13, 2017, 12:40 p.m.

                          Нужно иметь установленные библиотеки OpenSSL и в pro файле должен быть включен модуль network:

                          QT += network

                          Большего в данном случае посоветовать не могу

                            Evgenii Legotckoi
                            • May 13, 2017, 12:46 p.m.

                            Примерно так нужно поступать с тегами a или картинками:

                            QDomNodeList aList = doc.elementsByTagName("a");
                            for (int i = 0; i < aList.count(); ++i)
                            {
                                QDomElement aElement = aList.item(i).toElement();
                                qDebug() << aElement.attribute("href");
                            }

                            То есть дёргать нужный атрибут из найденного тега

                              Evgenii Legotckoi
                              • May 13, 2017, 12:51 p.m.

                              А вот здесь нужно делать модель данных, которую можно будет отобразить в QTreeView . Вообще есть готовый пример Simple DOM Model Example . Поищите его в примерах в Qt Creator. Можно будет оттуда выдернуть классы DomModel и DomItem, которые используются для отображения документа в древовидном виде.

                                KL
                                • May 13, 2017, 2:25 p.m.

                                Подсказка с OpenSSL очень помогла, у меня все вышло!!! Спасибо за видео, тоже очень помогло!!! Я рад) 2 недели не мог добраться до ответа)

                                  Comments

                                  Only authorized users can post comments.
                                  Please, Log in or Sign up
                                  B

                                  C++ - Test 002. Constants

                                  • Result:16points,
                                  • Rating points-10
                                  B

                                  C++ - Test 001. The first program and data types

                                  • Result:46points,
                                  • Rating points-6
                                  FL

                                  C++ - Test 006. Enumerations

                                  • Result:80points,
                                  • Rating points4
                                  Last comments
                                  k
                                  kmssrFeb. 8, 2024, 6:43 p.m.
                                  Qt Linux - Lesson 001. Autorun Qt application under Linux как сделать автозапуск для флэтпака, который не даёт создавать файлы в ~/.config - вот это вопрос ))
                                  Qt WinAPI - Lesson 007. Working with ICMP Ping in Qt Без строки #include <QRegularExpressionValidator> в заголовочном файле не работает валидатор.
                                  EVA
                                  EVADec. 25, 2023, 10:30 a.m.
                                  Boost - static linking in CMake project under Windows Ошибка LNK1104 часто возникает, когда компоновщик не может найти или открыть файл библиотеки. В вашем случае, это файл libboost_locale-vc142-mt-gd-x64-1_74.lib из библиотеки Boost для C+…
                                  J
                                  JonnyJoDec. 25, 2023, 8:38 a.m.
                                  Boost - static linking in CMake project under Windows Сделал всё по-как у вас, но выдаёт ошибку [build] LINK : fatal error LNK1104: не удается открыть файл "libboost_locale-vc142-mt-gd-x64-1_74.lib" Хоть убей, не могу понять в чём дел…
                                  G
                                  GvozdikDec. 18, 2023, 9:01 p.m.
                                  Qt/C++ - Lesson 056. Connecting the Boost library in Qt for MinGW and MSVC compilers Для решения твой проблемы добавь в файл .pro строчку "LIBS += -lws2_32" она решит проблему , лично мне помогло.
                                  Now discuss on the forum
                                  AC
                                  Alexandru CodreanuJan. 19, 2024, 11:57 a.m.
                                  QML Обнулить значения SpinBox Доброго времени суток, не могу разобраться с обнулением значение SpinBox находящего в делегате. import QtQuickimport QtQuick.ControlsWindow { width: 640 height: 480 visible: tr…
                                  BlinCT
                                  BlinCTDec. 27, 2023, 8:57 a.m.
                                  Растягивать Image на парент по высоте Ну и само собою дял включения scrollbar надо чтобы был Flickable. Так что выходит как то так Flickable{ id: root anchors.fill: parent clip: true property url linkFile p…
                                  Дмитрий
                                  ДмитрийJan. 10, 2024, 4:18 a.m.
                                  Qt Creator загружает всю оперативную память Проблема решена. Удалось разобраться с помощью утилиты strace. Запустил ее: strace ./qtcreator Начал выводиться весь лог работы креатора. В один момент он начал считывать фай…
                                  Evgenii Legotckoi
                                  Evgenii LegotckoiDec. 12, 2023, 6:48 a.m.
                                  Побуквенное сравнение двух строк Добрый день. Там случайно не высылается этот сигнал textChanged ещё и при форматировани текста? Если решиать в лоб, то можно просто отключать сигнал/слотовое соединение внутри слота и …

                                  Follow us in social networks