E
23 января 2020 г. 6:11

QWebPage получить html

QWebPage, QtWebEngineWidgets, QWebEnginePage::toHtml(), QWebEnginePage, QWebEngin, webenginewidgets, QWebPage получить html

Здравствуйте, пытаюсь получить html код страницы, но не появляется ни чего в указанной дирректории, что у меня не правильно? Надо получить вэб страницу не из виджета, а с помощью кода, ее отображение в саймой программе не требуется. Помогите плиз.
QWebEngineProfile m_profile = new QWebEngineProfile;
m_profile->setDownloadPath("my path");
QWebEnginePage
page = new QWebEnginePage(m_profile);
QUrl url("https://domenName");
page->load(url);
page->save("my path", QWebEngineDownloadItem::CompleteHtmlSaveFormat);

Рекомендуем хостинг TIMEWEB
Рекомендуем хостинг TIMEWEB
Стабильный хостинг, на котором располагается социальная сеть EVILEG. Для проектов на Django рекомендуем VDS хостинг.
8
E
  • 23 января 2020 г. 8:24
  • (ред.)
  • Ответ был помечен как решение.

Уже дошло) Оставлю здесь код для следующего поколения новичков) Вместо toHtml() можно вставить toPlainText и получить текст web страницы

QWebEngineProfile *m_profile = new QWebEngineProfile;
m_profile->setDownloadPath("my dir");
QWebEnginePage *page = new QWebEnginePage(m_profile);

page->settings()->setAttribute(QWebEngineSettings::AutoLoadImages, false);
page->settings()->setAttribute(QWebEngineSettings::JavascriptEnabled, true);

QEventLoop *event = new QEventLoop;
connect(page, &QWebEnginePage::loadFinished, event, &QEventLoop::quit);

page->load(QUrl("my url"));

event->exec();

page->toPlainText([this](const QString &result){
   qDebug()<<"html:";
   qDebug()<<result.size();
   ui->textBrowser->append(result);
   });

Добрый день. Ещё можно использовать просто QNetworkAccessManager, а то использование QWebEngine для получения html текста страницы с сайта может быть просто стрельбой из пушки по воробьям.

В этой статье есть пример получения JSON файла , но для обычной страницы разницы особой нет.

E

Нужно получить страницу, на кт после выполнения java скрипта открывается дополнительный контент. С помощью QNetworkRequest можно получить только страницу, а доп. контент нельзя. Сейчас пытаюсь это сделать с помощью QWebEnginePage::runJavaScript(). Правильная же концепция? Вот код:

QEventLoop *event = new QEventLoop;
connect(page, &QWebEnginePage::loadFinished, event, &QEventLoop::quit);

page->load(QUrl("my url"));

event->exec();

page->runJavaScript("document.getElementsByTagName(\"script\")[i]");

Тогда согласен.

Да, концепция правильная. Нужно только поизвращаться с сигналами и слотами. Там всё это асинхронно работает и поэтому достаточно по дурацки.

У меня была подобная задача. Добавлял WebView в диалог и уже в диалоге всё обрабатывал.

Принцип следующий.

В конструкторе диалога добавляем следующее

m_webView = new QWebEngineView(this);
ui->centralWidgetLayout->addWidget(m_webView);
connect(m_webView, &QWebEngineView::loadFinished, this, &Dialog::onLoadFinished);
connect(this, &Dialog::getHtml, this, &Dialog::handleHTML);

Далее пишем слот onLoadFinished, который выплёвывает сигнал getHtml

void Dialog::onLoadFinished()
{
    m_webView->page()->toHtml([this](const QString& result) mutable { emit getHtml(result); });
}

И потом уже в handleHTML делаем обработку.

void WizardMapWebDialog::handleHTML(QString html)
{
    // ToDo something with html
}

Заголовочник будет следующий

class Dialog : public QDialog
{
    Q_OBJECT
public:
    explicit Dialog(QWidget* parent = nullptr);

    virtual ~Dialog() override;

signals:
    void getHtml(QString html);

private slots:
    void onLoadFinished();
    void handleHTML(QString html);

private:
    Ui::Dialog* ui;
    QWebEngineView* m_webView;
};

JavaScript можно вызвать с применением callback функции, чтобы ещё и результат сразу полчить из функции

    m_webView->page()->runJavaScript("checkMap()", [this](const QVariant& v)
    {
        if (v.toString() == "true")
        {
            m_webView->page()->runJavaScript("takeValues();");
        }
        else
        {
            gui::DMessageBox::showError(this, tr("The mark point is outside the map.<br>Please select a location on the map"));
        }
    });

В примере с запуском JavaScript вызывались функции, которые уже есть на странице сайта, так что если там подключена jQuery, то думаю, что сможете её функционал использовать.

Другого способа, как получать перезагруженный контент через JavaScript на странице, я не знаю. Любые другие способы у меня не работали. Только таким образом сработало.

E
  • 23 января 2020 г. 13:02
  • (ред.)

Спасибо) А можно получить скрипты сайта таким образом?

    QWebEngineProfile *m_profile = new QWebEngineProfile;
    QWebEnginePage *page = new QWebEnginePage(m_profile);
    QList<QWebEngineScript> lsc;
    qDebug() << page->scripts().toList().isEmpty();
    lsc = page->scripts().toList();
    qDebug() << lsc;

Что делать с проблемой, когда скрипты сайта подгружаются по http и Qt ругается так:

js: Mixed Content: The page at was loaded over HTTPS, but requested an insecure script . This request has been blocked; the content must be served over HTTPS.
js: Mixed Content: The page at was loaded over a secure connection, but contains a form that targets an insecure endpoint . This endpoint should be made available over a secure connection.

Я пытался получить html по http и в профайле прописал: -no-openssl, но не помогло.

Не уверен. я бы попробовал выдернуть ссылки и забрать всё через QNetworkAccessManager, если вам не нужно запускать эти скрипты.
Я с той ошибкой не сталкивался.

E

Нашел фикс той ошибки:
ui->vebEngineView->settings()->setAttribute(QWebEngineSettings::AllowRunningInsecureContent, true);

E

Другого способа, как получать перезагруженный контент через JavaScript на странице, я не знаю.

Получилось сделать без QWebEngineView, с помощью QWebEnginePage, runJavaScript работает ассинхронно и надо дождаться пока скрипт выполнится, я установил таймер. В итоге в textBrowser выводился html, измененный скриптом.

QWebEnginePage *page1 = new QWebEnginePage;

    page1->settings()->setAttribute(QWebEngineSettings::AutoLoadImages, false);
    page1->settings()->setAttribute(QWebEngineSettings::JavascriptEnabled, true);
    page1->settings()->setAttribute(QWebEngineSettings::AllowRunningInsecureContent, true);

    QEventLoop *event = new QEventLoop;
    connect(page1, &QWebEnginePage::loadFinished, event, &QEventLoop::quit);

    page1->load(QUrl("https://..."));

    event->exec();


    page1->toHtml([this](const QString &result){
       ui->textBrowser_2->append(result);
       });

    page1->runJavaScript("javascript:__doPostBack('...')");

    qDebug() << "run!";

    QEventLoop *event1 = new QEventLoop;
    QTimer *timer = new QTimer();  
    connect(timer, &QTimer::timeout, event1, &QEventLoop::quit);
    timer->start(10000);
    event1->exec();


    page1->toHtml([this](const QString &result){
       ui->textBrowser->append(result);
       });

Комментарии

Только авторизованные пользователи могут публиковать комментарии.
Пожалуйста, авторизуйтесь или зарегистрируйтесь
Donate

Здравствуйте, уважаемые пользователи EVILEG !!!

Если сайт вам помог, то поддержите разработку сайта финансово, пожалуйста.

Вы можете сделать это следующими способами:

Спасибо, Евгений Легоцкой

p
17 февраля 2020 г. 14:41
pstMem

C++ - Тест 003. Условия и циклы

  • Результат:85баллов,
  • Очки рейтинга6
z
17 февраля 2020 г. 6:02
zet

C++ - Тест 006. Перечисления

  • Результат:80баллов,
  • Очки рейтинга4
z
17 февраля 2020 г. 5:49
zet

C++ - Тест 001. Первая программа и типы данных

  • Результат:80баллов,
  • Очки рейтинга4
Последние комментарии
24 февраля 2020 г. 3:54
Евгений Легоцкой

Добрый день. Там будет url, на который указывает ссылка тега a в пагинаторе, если правильно помню )) Написал этот код и забыл.
B
24 февраля 2020 г. 0:37
BahaMeirman

Евгений Здравствуйте! Не могу понять вот эту часть кода: url: jQuery(this).attr('action') наверное здесь должен быть путь к url, тогда 'action' на какой url указывает?
17 февраля 2020 г. 3:22
Евгений Легоцкой

Добрый день. Это кастомный тег, помещается в файл, который находится в каталоге templatetags myapp/ templatetags/ myapp.py
B
16 февраля 2020 г. 13:36
BahaMeirman

Добрый вечер! Монжно по подробней о теге get_companion? ссылка не работает.
Сейчас обсуждают на форуме
24 февраля 2020 г. 6:29
Евгений Легоцкой

Qt не предоставляет функционала по запросу root прав во время выполнения программы. Поэтому нужно использовать платформозависимый функционал, для Linux это будет выглядеть так: #include…
24 февраля 2020 г. 3:47
Евгений Легоцкой

Добрый день. Что означает клиентская область? Это изображение? Вам нужно распознавать символы текста или всё-таки пользователь будет вводить текст с клавиатуры, просто в любом месте "абстр…
VZ
21 февраля 2020 г. 5:19
Vladimir Zhitkovsky

void sendImage(int sessid, int type, int dest, int format, QString imgBase64Data){ QNetworkRequest request; request.setUrl(QUrl(ipAddress + "ctlapi/cmd=preparereportimg&sessid=…
20 февраля 2020 г. 14:40
mkdir

Здравствуйте! Пишу игру - 2D платформер в среде Qt. Имею не очень много опыта в разработке. Подскажите, как можно реализовать ситуацию, где QGraphicScene больше, чем QGraphicView и надо двигать …
20 февраля 2020 г. 7:12
Михаиллл

Вот так похоже можно https://doc.qt.io/qt-5/qtpurchasing-index.html
EVILEG
О нас
Услуги
© EVILEG 2015-2019
Рекомендует хостинг TIMEWEB