KL
Konstantin Lazarev13 мая 2017 г. 2:06

Аналог jsoup для Qt

Доброе утро, подскажите пожалуйста, в Qt есть аналог библиотеки jsoup. Библиотека позволяет доставать любые теги из спарсеного документа.

Рекомендуем хостинг TIMEWEB
Рекомендуем хостинг TIMEWEB
Стабильный хостинг, на котором располагается социальная сеть EVILEG. Для проектов на Django рекомендуем VDS хостинг.

Вам это нравится? Поделитесь в социальных сетях!

16
Evgenii Legotckoi
  • 13 мая 2017 г. 2:20

Добрый день!

Если только на гитхабе кто-нибудь выложил нечто подобное, поскольку такая библиотека, если бы она была, была бы очень известна.

А так могу предложить варианты либо с QXmlStreamReader , QXmlStreamWriter , либо с QDomDocument .

Впрочем, настоятельно рекомендую обратить внимание на QDomDocument , там есть методы по получению тегов по имени или id.

Если бы Вы писали на PyQt5, то я порекомендовал бы ещё обратить внимание на Python библиотеку BeautifulSoup 4 , она очень хороша, несмотря на немного неочевидные некоторые моменты в работе. У меня на сайте комментарии и ответы на форуме именно этой библиотекой обрабатываются перед публикацией. Но QDomDocument вполне себе реализует необходимый функционал по извлечению необходимых тегов, разве только нет методов, которые бы по классам или атрибутам выдёргивали необходимые теги, но можно в цикле запросто найти нужный тег из QDomNodeList .

    KL
    • 13 мая 2017 г. 2:35

    Можно пару строк кода, для лучшего понимания, как вытащить только title из спарсеного документа.

      Evgenii Legotckoi
      • 13 мая 2017 г. 2:37

      Можно, но только покажите, как у вас тег title выглядит в HTML документе.

        Evgenii Legotckoi
        • 13 мая 2017 г. 8:02

        Так. Ну я увидел, как выглядит этот тег в логах об ошибке. Накидаю пример.
        В следующий раз, просьба, вставлять HTML код через диалог вставки кода. (Надо будет подумать, как пофиксить этот баг)

          Evgenii Legotckoi
          • 13 мая 2017 г. 8:46

          Допустим тогда, есть вот такой кусок HTML кода:

          <!DOCTYPE html>
          <html>
             <head>
                <title>
                   A Small Hello
                </title>
             </head>
          <body>
             <h1>Hi</h1>
             <p>This is very minimal "hello world" HTML document.</p>
          </body>
          </html>

          Следовательно, нужно получить текст, который содержится в title . Для этого в pro файле необходимо подключить модуль xml

          QT += xml

          И воспользоваться возможностями QDomDocument

          QDomDocument doc;
          // Дергал этот html документ из ресурсов
          QFile file(":/example.html");
          
          // Если не удалось открыть файл, то возвращаемся из метода
          if (!file.open(QIODevice::ReadOnly) || !doc.setContent(&file))
              return;
          
          // Получаем список всех тегов title
          QDomNodeList titlesList = doc.elementsByTagName("title");
          // Поскольку title обычно один, то берём его Ноду из списка по нулевому индексу
          QDomNode titleNode = titlesList.item(0);
          // Преобразуем Ноду в элемент
          QDomElement element = titleNode.toElement();
          // Тогда получится забрать текст из тега
          qDebug() << element.text();
            KL
            • 13 мая 2017 г. 8:50

            А этот модуль работает с удаленными файлами?

            <?xml version="1.0" encoding="utf-8"?>
            <yandexsearch version="1.0">
              <request>
                <query>
                  Платные комментарии
                </query>
                <page>
                  0
                </page>
                <sortby order="descending" priority="no">
                  rlv
                </sortby>
                <maxpassages>
                </maxpassages>
                <groupings>
                  <groupby attr="" mode="flat" groups-on-page="10" docs-in-group="1" curcateg="-1" />
                </groupings>
              </request>
              <response date="20170513T124911">
                <reqid>
                  1494679751371064-722144758077498024982079-sas1-1417-XML
                </reqid>
                <found priority="phrase">
                  31179652
                </found>
                <found priority="strict">
                  31179652
                </found>
                <found priority="all">
                  31179652
                </found>
                <found-human>
                  Нашёлся 31 млн ответов
                  </found-human>
                <results>
                  <grouping attr="" mode="flat" groups-on-page="10" docs-in-group="1" curcateg="-1">
                    <found priority="phrase">
                      140673
                    </found>
                    <found priority="strict">
                      140673
                    </found>
                    <found priority="all">
                      140673
                    </found>
                    <found-docs priority="phrase">
                      229751
                      </found-docs>
                    <found-docs priority="strict">
                      229751
                      </found-docs>
                    <found-docs priority="all">
                      229751
                      </found-docs>
                    <found-docs-human>
                      нашёл 230 тыс. ответов
                      </found-docs-human>
                    <page first="1" last="10">
                      0
                    </page>
                    <group>
                      <doccount>
                        1
                      </doccount>
                      <relevance />
                      <doc id="Z1CDC9256CCB9C8B0">
                        <relevance />
                        <url>
                          http://inetsovety.ru/zarabotok-na-kommentariyah-gde-zarabotaty-denygi/
                        </url>
                        <domain>
                          inetsovety.ru
                        </domain>
                        <title>
                          Заработок на 
                          <hlword>
                            комментариях
                          </hlword>
                          . Где платят деньги за 
                          <hlword>
                            комментарии
                          </hlword>
                          ?
                        </title>
              KL
              • 13 мая 2017 г. 8:51

              Вот такое мне выдает Яндекс, я могу его обработать с помощью данного класса?

                KL
                • 13 мая 2017 г. 8:54

                При помощи QNetworkAccessManager я могу получить html текст, а яндекс отдает xml файл, думаю ошибка кроется здесь.

                  Evgenii Legotckoi
                  • 13 мая 2017 г. 9:03

                  Без разницы. QNetworkAccessManager может забрать как html , так и xml текст. А QDomDocument и остальные сопутствующие классы входят в состав модуля xml , что само по себе говорит о том, что он заточен под работу с xml, да и html код - это тот же самый xml, только у него есть определённый стандарт.

                  Так что ошибка скорее всего в том, что не совсем правильно забираете данные из ответа QNetworkAccessManager`а

                    KL
                    • 13 мая 2017 г. 9:21

                    ERROR "Unable to init SSL Context: " Вот что выдает приложение, но с Google все отлично работает.

                      KL
                      • 13 мая 2017 г. 9:50

                      Подскажите как быть с тегами a или картинками?

                        KL
                        • 13 мая 2017 г. 10:00

                        Как вывести дерево доступных элементов, которые хранятся в doc?

                          Evgenii Legotckoi
                          • 13 мая 2017 г. 12:40

                          Нужно иметь установленные библиотеки OpenSSL и в pro файле должен быть включен модуль network:

                          QT += network

                          Большего в данном случае посоветовать не могу

                            Evgenii Legotckoi
                            • 13 мая 2017 г. 12:46

                            Примерно так нужно поступать с тегами a или картинками:

                            QDomNodeList aList = doc.elementsByTagName("a");
                            for (int i = 0; i < aList.count(); ++i)
                            {
                                QDomElement aElement = aList.item(i).toElement();
                                qDebug() << aElement.attribute("href");
                            }

                            То есть дёргать нужный атрибут из найденного тега

                              Evgenii Legotckoi
                              • 13 мая 2017 г. 12:51

                              А вот здесь нужно делать модель данных, которую можно будет отобразить в QTreeView . Вообще есть готовый пример Simple DOM Model Example . Поищите его в примерах в Qt Creator. Можно будет оттуда выдернуть классы DomModel и DomItem, которые используются для отображения документа в древовидном виде.

                                KL
                                • 13 мая 2017 г. 14:25

                                Подсказка с OpenSSL очень помогла, у меня все вышло!!! Спасибо за видео, тоже очень помогло!!! Я рад) 2 недели не мог добраться до ответа)

                                  Комментарии

                                  Только авторизованные пользователи могут публиковать комментарии.
                                  Пожалуйста, авторизуйтесь или зарегистрируйтесь
                                  AD

                                  C++ - Тест 004. Указатели, Массивы и Циклы

                                  • Результат:50баллов,
                                  • Очки рейтинга-4
                                  m
                                  • molni99
                                  • 26 октября 2024 г. 1:37

                                  C++ - Тест 004. Указатели, Массивы и Циклы

                                  • Результат:80баллов,
                                  • Очки рейтинга4
                                  m
                                  • molni99
                                  • 26 октября 2024 г. 1:29

                                  C++ - Тест 004. Указатели, Массивы и Циклы

                                  • Результат:20баллов,
                                  • Очки рейтинга-10
                                  Последние комментарии
                                  i
                                  innorwall11 ноября 2024 г. 22:12
                                  Django - Урок 055. Как написать функционал auto populate field Freckles because of several brand names retin a, atralin buy generic priligy
                                  i
                                  innorwall11 ноября 2024 г. 18:23
                                  QML - Урок 035. Использование перечислений в QML без C++ priligy cvs 24 Together with antibiotics such as amphotericin B 10, griseofulvin 11 and streptomycin 12, chloramphenicol 9 is in the World Health Organisation s List of Essential Medici…
                                  i
                                  innorwall11 ноября 2024 г. 15:50
                                  Qt/C++ - Урок 052. Кастомизация Qt Аудио плеера в стиле AIMP It decreases stress, supports hormone balance, and regulates and increases blood flow to the reproductive organs buy priligy online safe Promising data were reported in a PDX model re…
                                  i
                                  innorwall11 ноября 2024 г. 14:19
                                  Алгоритм сортировки кучей The role of raloxifene in preventing breast cancer priligy precio
                                  i
                                  innorwall11 ноября 2024 г. 13:55
                                  PyQt5 - Урок 006. Работа с QTableWidget buy priligy 60 mg 53 have been reported by Javanovic Santa et al
                                  Сейчас обсуждают на форуме
                                  i
                                  innorwall11 ноября 2024 г. 20:56
                                  добавить qlineseries в функции buy priligy senior brother Chu He, whom he had known for many years
                                  i
                                  innorwall11 ноября 2024 г. 10:55
                                  Всё ещё разбираюсь с кешем. priligy walgreens levitra dulcolax carbs The third ring was found to be made up of ultra relativistic electrons, which are also present in both the outer and inner rings
                                  9
                                  9Anonim25 октября 2024 г. 9:10
                                  Машина тьюринга // Начальное состояние 0 0, ,<,1 // Переход в состояние 1 при пустом символе 0,0,>,0 // Остаемся в состоянии 0, двигаясь вправо при встрече 0 0,1,>…
                                  ИМ
                                  Игорь Максимов3 октября 2024 г. 4:05
                                  Реализация навигации по разделам Спасибо Евгений!

                                  Следите за нами в социальных сетях