KL
Konstantin LazarevМамыр 13, 2017, 2:06 Т.Ж.

Аналог jsoup для Qt

Доброе утро, подскажите пожалуйста, в Qt есть аналог библиотеки jsoup. Библиотека позволяет доставать любые теги из спарсеного документа.

Рекомендуем хостинг TIMEWEB
Рекомендуем хостинг TIMEWEB
Стабильный хостинг, на котором располагается социальная сеть EVILEG. Для проектов на Django рекомендуем VDS хостинг.

Ол саған ұнайды ма? Әлеуметтік желілерде бөлісіңіз!

16
Evgenii Legotckoi
  • Мамыр 13, 2017, 2:20 Т.Ж.

Добрый день!

Если только на гитхабе кто-нибудь выложил нечто подобное, поскольку такая библиотека, если бы она была, была бы очень известна.

А так могу предложить варианты либо с QXmlStreamReader , QXmlStreamWriter , либо с QDomDocument .

Впрочем, настоятельно рекомендую обратить внимание на QDomDocument , там есть методы по получению тегов по имени или id.

Если бы Вы писали на PyQt5, то я порекомендовал бы ещё обратить внимание на Python библиотеку BeautifulSoup 4 , она очень хороша, несмотря на немного неочевидные некоторые моменты в работе. У меня на сайте комментарии и ответы на форуме именно этой библиотекой обрабатываются перед публикацией. Но QDomDocument вполне себе реализует необходимый функционал по извлечению необходимых тегов, разве только нет методов, которые бы по классам или атрибутам выдёргивали необходимые теги, но можно в цикле запросто найти нужный тег из QDomNodeList .

    KL
    • Мамыр 13, 2017, 2:35 Т.Ж.

    Можно пару строк кода, для лучшего понимания, как вытащить только title из спарсеного документа.

      Evgenii Legotckoi
      • Мамыр 13, 2017, 2:37 Т.Ж.

      Можно, но только покажите, как у вас тег title выглядит в HTML документе.

        Evgenii Legotckoi
        • Мамыр 13, 2017, 8:02 Т.Ж.

        Так. Ну я увидел, как выглядит этот тег в логах об ошибке. Накидаю пример.
        В следующий раз, просьба, вставлять HTML код через диалог вставки кода. (Надо будет подумать, как пофиксить этот баг)

          Evgenii Legotckoi
          • Мамыр 13, 2017, 8:46 Т.Ж.

          Допустим тогда, есть вот такой кусок HTML кода:

          <!DOCTYPE html>
          <html>
             <head>
                <title>
                   A Small Hello
                </title>
             </head>
          <body>
             <h1>Hi</h1>
             <p>This is very minimal "hello world" HTML document.</p>
          </body>
          </html>

          Следовательно, нужно получить текст, который содержится в title . Для этого в pro файле необходимо подключить модуль xml

          QT += xml

          И воспользоваться возможностями QDomDocument

          QDomDocument doc;
          // Дергал этот html документ из ресурсов
          QFile file(":/example.html");
          
          // Если не удалось открыть файл, то возвращаемся из метода
          if (!file.open(QIODevice::ReadOnly) || !doc.setContent(&file))
              return;
          
          // Получаем список всех тегов title
          QDomNodeList titlesList = doc.elementsByTagName("title");
          // Поскольку title обычно один, то берём его Ноду из списка по нулевому индексу
          QDomNode titleNode = titlesList.item(0);
          // Преобразуем Ноду в элемент
          QDomElement element = titleNode.toElement();
          // Тогда получится забрать текст из тега
          qDebug() << element.text();
            KL
            • Мамыр 13, 2017, 8:50 Т.Ж.

            А этот модуль работает с удаленными файлами?

            <?xml version="1.0" encoding="utf-8"?>
            <yandexsearch version="1.0">
              <request>
                <query>
                  Платные комментарии
                </query>
                <page>
                  0
                </page>
                <sortby order="descending" priority="no">
                  rlv
                </sortby>
                <maxpassages>
                </maxpassages>
                <groupings>
                  <groupby attr="" mode="flat" groups-on-page="10" docs-in-group="1" curcateg="-1" />
                </groupings>
              </request>
              <response date="20170513T124911">
                <reqid>
                  1494679751371064-722144758077498024982079-sas1-1417-XML
                </reqid>
                <found priority="phrase">
                  31179652
                </found>
                <found priority="strict">
                  31179652
                </found>
                <found priority="all">
                  31179652
                </found>
                <found-human>
                  Нашёлся 31 млн ответов
                  </found-human>
                <results>
                  <grouping attr="" mode="flat" groups-on-page="10" docs-in-group="1" curcateg="-1">
                    <found priority="phrase">
                      140673
                    </found>
                    <found priority="strict">
                      140673
                    </found>
                    <found priority="all">
                      140673
                    </found>
                    <found-docs priority="phrase">
                      229751
                      </found-docs>
                    <found-docs priority="strict">
                      229751
                      </found-docs>
                    <found-docs priority="all">
                      229751
                      </found-docs>
                    <found-docs-human>
                      нашёл 230 тыс. ответов
                      </found-docs-human>
                    <page first="1" last="10">
                      0
                    </page>
                    <group>
                      <doccount>
                        1
                      </doccount>
                      <relevance />
                      <doc id="Z1CDC9256CCB9C8B0">
                        <relevance />
                        <url>
                          http://inetsovety.ru/zarabotok-na-kommentariyah-gde-zarabotaty-denygi/
                        </url>
                        <domain>
                          inetsovety.ru
                        </domain>
                        <title>
                          Заработок на 
                          <hlword>
                            комментариях
                          </hlword>
                          . Где платят деньги за 
                          <hlword>
                            комментарии
                          </hlword>
                          ?
                        </title>
              KL
              • Мамыр 13, 2017, 8:51 Т.Ж.

              Вот такое мне выдает Яндекс, я могу его обработать с помощью данного класса?

                KL
                • Мамыр 13, 2017, 8:54 Т.Ж.

                При помощи QNetworkAccessManager я могу получить html текст, а яндекс отдает xml файл, думаю ошибка кроется здесь.

                  Evgenii Legotckoi
                  • Мамыр 13, 2017, 9:03 Т.Ж.

                  Без разницы. QNetworkAccessManager может забрать как html , так и xml текст. А QDomDocument и остальные сопутствующие классы входят в состав модуля xml , что само по себе говорит о том, что он заточен под работу с xml, да и html код - это тот же самый xml, только у него есть определённый стандарт.

                  Так что ошибка скорее всего в том, что не совсем правильно забираете данные из ответа QNetworkAccessManager`а

                    KL
                    • Мамыр 13, 2017, 9:21 Т.Ж.

                    ERROR "Unable to init SSL Context: " Вот что выдает приложение, но с Google все отлично работает.

                      KL
                      • Мамыр 13, 2017, 9:50 Т.Ж.

                      Подскажите как быть с тегами a или картинками?

                        KL
                        • Мамыр 13, 2017, 10 Т.Ж.

                        Как вывести дерево доступных элементов, которые хранятся в doc?

                          Evgenii Legotckoi
                          • Мамыр 13, 2017, 12:40 Т.Қ.

                          Нужно иметь установленные библиотеки OpenSSL и в pro файле должен быть включен модуль network:

                          QT += network

                          Большего в данном случае посоветовать не могу

                            Evgenii Legotckoi
                            • Мамыр 13, 2017, 12:46 Т.Қ.

                            Примерно так нужно поступать с тегами a или картинками:

                            QDomNodeList aList = doc.elementsByTagName("a");
                            for (int i = 0; i < aList.count(); ++i)
                            {
                                QDomElement aElement = aList.item(i).toElement();
                                qDebug() << aElement.attribute("href");
                            }

                            То есть дёргать нужный атрибут из найденного тега

                              Evgenii Legotckoi
                              • Мамыр 13, 2017, 12:51 Т.Қ.

                              А вот здесь нужно делать модель данных, которую можно будет отобразить в QTreeView . Вообще есть готовый пример Simple DOM Model Example . Поищите его в примерах в Qt Creator. Можно будет оттуда выдернуть классы DomModel и DomItem, которые используются для отображения документа в древовидном виде.

                                KL
                                • Мамыр 13, 2017, 2:25 Т.Қ.

                                Подсказка с OpenSSL очень помогла, у меня все вышло!!! Спасибо за видео, тоже очень помогло!!! Я рад) 2 недели не мог добраться до ответа)

                                  Пікірлер

                                  Тек рұқсаты бар пайдаланушылар ғана пікір қалдыра алады.
                                  Кіріңіз немесе Тіркеліңіз
                                  OI
                                  • Ora Iro
                                  • Жел. 24, 2024, 6:38 Т.Ж.

                                  C++ - Тест 001. Первая программа и типы данных

                                  • Нәтиже:40ұпай,
                                  • Бағалау ұпайлары-8
                                  AD

                                  C++ - Тест 004. Указатели, Массивы и Циклы

                                  • Нәтиже:50ұпай,
                                  • Бағалау ұпайлары-4
                                  m
                                  • molni99
                                  • Қаз. 26, 2024, 1:37 Т.Ж.

                                  C++ - Тест 004. Указатели, Массивы и Циклы

                                  • Нәтиже:80ұпай,
                                  • Бағалау ұпайлары4
                                  Соңғы пікірлер
                                  ИМ
                                  Игорь МаксимовҚар. 22, 2024, 11:51 Т.Ж.
                                  Django - Оқулық 017. Теңшелген Django кіру беті Добрый вечер Евгений! Я сделал себе авторизацию аналогичную вашей, все работает, кроме возврата к предидущей странице. Редеректит всегда на главную, хотя в логах сервера вижу запросы на правильн…
                                  Evgenii Legotckoi
                                  Evgenii LegotckoiҚаз. 31, 2024, 2:37 Т.Қ.
                                  Django - Сабақ 064. Python Markdown кеңейтімін қалай жазуға болады Добрый день. Да, можно. Либо через такие же плагины, либо с постобработкой через python библиотеку Beautiful Soup
                                  A
                                  ALO1ZEҚаз. 19, 2024, 8:19 Т.Ж.
                                  Qt Creator көмегімен fb3 файл оқу құралы Подскажите как это запустить? Я не шарю в программировании и кодинге. Скачал и установаил Qt, но куча ошибок выдается и не запустить. А очень надо fb3 переконвертировать в html
                                  ИМ
                                  Игорь МаксимовҚаз. 5, 2024, 7:51 Т.Ж.
                                  Django - Сабақ 064. Python Markdown кеңейтімін қалай жазуға болады Приветствую Евгений! У меня вопрос. Можно ли вставлять свои классы в разметку редактора markdown? Допустим имея стандартную разметку: <ul> <li></li> <li></l…
                                  d
                                  dblas5Шілде 5, 2024, 11:02 Т.Ж.
                                  QML - Сабақ 016. SQLite деректер қоры және онымен QML Qt-та жұмыс істеу Здравствуйте, возникает такая проблема (я новичок): ApplicationWindow неизвестный элемент. (М300) для TextField и Button аналогично. Могу предположить, что из-за более новой верси…
                                  Енді форумда талқылаңыз
                                  Evgenii Legotckoi
                                  Evgenii LegotckoiМаусым 24, 2024, 3:11 Т.Қ.
                                  добавить qlineseries в функции Я тут. Работы оень много. Отправил его в бан.
                                  t
                                  tonypeachey1Қар. 15, 2024, 6:04 Т.Ж.
                                  google domain [url=https://google.com/]domain[/url] domain [http://www.example.com link title]
                                  NSProject
                                  NSProjectМаусым 4, 2022, 3:49 Т.Ж.
                                  Всё ещё разбираюсь с кешем. В следствии прочтения данной статьи. Я принял для себя решение сделать кеширование свойств менеджера модели LikeDislike. И так как установка evileg_core для меня не была возможна, ибо он писался…
                                  9
                                  9AnonimҚаз. 25, 2024, 9:10 Т.Ж.
                                  Машина тьюринга // Начальное состояние 0 0, ,<,1 // Переход в состояние 1 при пустом символе 0,0,>,0 // Остаемся в состоянии 0, двигаясь вправо при встрече 0 0,1,>…

                                  Бізді әлеуметтік желілерде бақылаңыз