KL
Konstantin Lazarev13. Mai 2017 02:06

Аналог jsoup для Qt

Доброе утро, подскажите пожалуйста, в Qt есть аналог библиотеки jsoup. Библиотека позволяет доставать любые теги из спарсеного документа.

Рекомендуємо хостинг TIMEWEB
Рекомендуємо хостинг TIMEWEB
Stabiles Hosting des sozialen Netzwerks EVILEG. Wir empfehlen VDS-Hosting für Django-Projekte.

Magst du es? In sozialen Netzwerken teilen!

16
Evgenii Legotckoi
  • 13. Mai 2017 02:20

Добрый день!

Если только на гитхабе кто-нибудь выложил нечто подобное, поскольку такая библиотека, если бы она была, была бы очень известна.

А так могу предложить варианты либо с QXmlStreamReader , QXmlStreamWriter , либо с QDomDocument .

Впрочем, настоятельно рекомендую обратить внимание на QDomDocument , там есть методы по получению тегов по имени или id.

Если бы Вы писали на PyQt5, то я порекомендовал бы ещё обратить внимание на Python библиотеку BeautifulSoup 4 , она очень хороша, несмотря на немного неочевидные некоторые моменты в работе. У меня на сайте комментарии и ответы на форуме именно этой библиотекой обрабатываются перед публикацией. Но QDomDocument вполне себе реализует необходимый функционал по извлечению необходимых тегов, разве только нет методов, которые бы по классам или атрибутам выдёргивали необходимые теги, но можно в цикле запросто найти нужный тег из QDomNodeList .

    KL
    • 13. Mai 2017 02:35

    Можно пару строк кода, для лучшего понимания, как вытащить только title из спарсеного документа.

      Можно, но только покажите, как у вас тег title выглядит в HTML документе.

        Так. Ну я увидел, как выглядит этот тег в логах об ошибке. Накидаю пример.
        В следующий раз, просьба, вставлять HTML код через диалог вставки кода. (Надо будет подумать, как пофиксить этот баг)

          Допустим тогда, есть вот такой кусок HTML кода:

          <!DOCTYPE html>
          <html>
             <head>
                <title>
                   A Small Hello
                </title>
             </head>
          <body>
             <h1>Hi</h1>
             <p>This is very minimal "hello world" HTML document.</p>
          </body>
          </html>

          Следовательно, нужно получить текст, который содержится в title . Для этого в pro файле необходимо подключить модуль xml

          QT += xml

          И воспользоваться возможностями QDomDocument

          QDomDocument doc;
          // Дергал этот html документ из ресурсов
          QFile file(":/example.html");
          
          // Если не удалось открыть файл, то возвращаемся из метода
          if (!file.open(QIODevice::ReadOnly) || !doc.setContent(&file))
              return;
          
          // Получаем список всех тегов title
          QDomNodeList titlesList = doc.elementsByTagName("title");
          // Поскольку title обычно один, то берём его Ноду из списка по нулевому индексу
          QDomNode titleNode = titlesList.item(0);
          // Преобразуем Ноду в элемент
          QDomElement element = titleNode.toElement();
          // Тогда получится забрать текст из тега
          qDebug() << element.text();
            KL
            • 13. Mai 2017 08:50

            А этот модуль работает с удаленными файлами?

            <?xml version="1.0" encoding="utf-8"?>
            <yandexsearch version="1.0">
              <request>
                <query>
                  Платные комментарии
                </query>
                <page>
                  0
                </page>
                <sortby order="descending" priority="no">
                  rlv
                </sortby>
                <maxpassages>
                </maxpassages>
                <groupings>
                  <groupby attr="" mode="flat" groups-on-page="10" docs-in-group="1" curcateg="-1" />
                </groupings>
              </request>
              <response date="20170513T124911">
                <reqid>
                  1494679751371064-722144758077498024982079-sas1-1417-XML
                </reqid>
                <found priority="phrase">
                  31179652
                </found>
                <found priority="strict">
                  31179652
                </found>
                <found priority="all">
                  31179652
                </found>
                <found-human>
                  Нашёлся 31 млн ответов
                  </found-human>
                <results>
                  <grouping attr="" mode="flat" groups-on-page="10" docs-in-group="1" curcateg="-1">
                    <found priority="phrase">
                      140673
                    </found>
                    <found priority="strict">
                      140673
                    </found>
                    <found priority="all">
                      140673
                    </found>
                    <found-docs priority="phrase">
                      229751
                      </found-docs>
                    <found-docs priority="strict">
                      229751
                      </found-docs>
                    <found-docs priority="all">
                      229751
                      </found-docs>
                    <found-docs-human>
                      нашёл 230 тыс. ответов
                      </found-docs-human>
                    <page first="1" last="10">
                      0
                    </page>
                    <group>
                      <doccount>
                        1
                      </doccount>
                      <relevance />
                      <doc id="Z1CDC9256CCB9C8B0">
                        <relevance />
                        <url>
                          http://inetsovety.ru/zarabotok-na-kommentariyah-gde-zarabotaty-denygi/
                        </url>
                        <domain>
                          inetsovety.ru
                        </domain>
                        <title>
                          Заработок на 
                          <hlword>
                            комментариях
                          </hlword>
                          . Где платят деньги за 
                          <hlword>
                            комментарии
                          </hlword>
                          ?
                        </title>
              KL
              • 13. Mai 2017 08:51

              Вот такое мне выдает Яндекс, я могу его обработать с помощью данного класса?

                KL
                • 13. Mai 2017 08:54

                При помощи QNetworkAccessManager я могу получить html текст, а яндекс отдает xml файл, думаю ошибка кроется здесь.

                  Без разницы. QNetworkAccessManager может забрать как html , так и xml текст. А QDomDocument и остальные сопутствующие классы входят в состав модуля xml , что само по себе говорит о том, что он заточен под работу с xml, да и html код - это тот же самый xml, только у него есть определённый стандарт.

                  Так что ошибка скорее всего в том, что не совсем правильно забираете данные из ответа QNetworkAccessManager`а

                    KL
                    • 13. Mai 2017 09:21

                    ERROR "Unable to init SSL Context: " Вот что выдает приложение, но с Google все отлично работает.

                      KL
                      • 13. Mai 2017 09:50

                      Подскажите как быть с тегами a или картинками?

                        KL
                        • 13. Mai 2017 10:00

                        Как вывести дерево доступных элементов, которые хранятся в doc?

                          Нужно иметь установленные библиотеки OpenSSL и в pro файле должен быть включен модуль network:

                          QT += network

                          Большего в данном случае посоветовать не могу

                            Примерно так нужно поступать с тегами a или картинками:

                            QDomNodeList aList = doc.elementsByTagName("a");
                            for (int i = 0; i < aList.count(); ++i)
                            {
                                QDomElement aElement = aList.item(i).toElement();
                                qDebug() << aElement.attribute("href");
                            }

                            То есть дёргать нужный атрибут из найденного тега

                              А вот здесь нужно делать модель данных, которую можно будет отобразить в QTreeView . Вообще есть готовый пример Simple DOM Model Example . Поищите его в примерах в Qt Creator. Можно будет оттуда выдернуть классы DomModel и DomItem, которые используются для отображения документа в древовидном виде.

                                KL
                                • 13. Mai 2017 14:25

                                Подсказка с OpenSSL очень помогла, у меня все вышло!!! Спасибо за видео, тоже очень помогло!!! Я рад) 2 недели не мог добраться до ответа)

                                  Kommentare

                                  Nur autorisierte Benutzer können Kommentare posten.
                                  Bitte Anmelden oder Registrieren
                                  Letzte Kommentare
                                  A
                                  ALO1ZE19. Oktober 2024 08:19
                                  Fb3-Dateileser auf Qt Creator Подскажите как это запустить? Я не шарю в программировании и кодинге. Скачал и установаил Qt, но куча ошибок выдается и не запустить. А очень надо fb3 переконвертировать в html
                                  ИМ
                                  Игорь Максимов5. Oktober 2024 07:51
                                  Django – Lektion 064. So schreiben Sie eine Python-Markdown-Erweiterung Приветствую Евгений! У меня вопрос. Можно ли вставлять свои классы в разметку редактора markdown? Допустим имея стандартную разметку: <ul> <li></li> <li></l…
                                  d
                                  dblas55. Juli 2024 11:02
                                  QML - Lektion 016. SQLite-Datenbank und das Arbeiten damit in QML Qt Здравствуйте, возникает такая проблема (я новичок): ApplicationWindow неизвестный элемент. (М300) для TextField и Button аналогично. Могу предположить, что из-за более новой верси…
                                  k
                                  kmssr8. Februar 2024 18:43
                                  Qt Linux - Lektion 001. Autorun Qt-Anwendung unter Linux как сделать автозапуск для флэтпака, который не даёт создавать файлы в ~/.config - вот это вопрос ))
                                  Qt WinAPI - Lektion 007. Arbeiten mit ICMP-Ping in Qt Без строки #include <QRegularExpressionValidator> в заголовочном файле не работает валидатор.
                                  Jetzt im Forum diskutieren
                                  J
                                  JacobFib17. Oktober 2024 03:27
                                  добавить qlineseries в функции Пользователь может получить любые разъяснения по интересующим вопросам, касающимся обработки его персональных данных, обратившись к Оператору с помощью электронной почты https://topdecorpro.ru…
                                  JW
                                  Jhon Wick1. Oktober 2024 15:52
                                  Indian Food Restaurant In Columbus OH| Layla’s Kitchen Indian Restaurant If you're looking for a truly authentic https://www.laylaskitchenrestaurantohio.com/ , Layla’s Kitchen Indian Restaurant is your go-to destination. Located at 6152 Cleveland Ave, Colu…
                                  КГ
                                  Кирилл Гусарев27. September 2024 09:09
                                  Не запускается программа на Qt: точка входа в процедуру не найдена в библиотеке DLL Написал программу на C++ Qt в Qt Creator, сбилдил Release с помощью MinGW 64-bit, бинарнику напихал dll-ки с помощью windeployqt.exe. При попытке запуска моей сбилженной программы выдаёт три оши…
                                  F
                                  Fynjy22. Juli 2024 04:15
                                  при создании qml проекта Kits есть но недоступны для выбора Поставил Qt Creator 11.0.2. Qt 6.4.3 При создании проекта Qml не могу выбрать Kits, они все недоступны, хотя настроены и при создании обычного Qt Widget приложения их можно выбрать. В чем может …

                                  Folgen Sie uns in sozialen Netzwerken