21 ноября 2017 г. 14:10

Улучшение использования ЦП в Qt 3D

Содержание

1. Улучшение решателя зависимостей заданий
2. Улучшение производительности QThreadPool
3. Кэширование результатов конкретных заданий

Много улучшений было внесено в Qt 3D с момента выпуска Qt 5.6, нашей предыдущей версии долгосрочной поддержки (LTS). Инженеры из KDAB и The Qt Company упорно работали, чтобы привнести новые функции в Qt 5.9 LTS, многие из которых перечислены в Что нового в Qt 3D с Qt 5,9 в посте блога Шон Хармера из KDAB. Несмотря на то, что множество возможностей еще в разработке (например, Vulkan backend), основное внимание в последних выпусках сместилось в сторону производительности и стабильности. Эффективность значительно улучшилась в сравнении с Qt 5.6, особенно для сложных сцен и сцен с большим количеством графов.

Сцены со многими окнами просмотра обычно приводят к большому количеству кадровых графов, поскольку каждое окно просмотра соответствует листовому узлу. Если вы не знакомы с концепцией кадрового графа в Qt 3D и с тем, насколько это мощно, вам следует прочесть сообщение из блога Пола Лемари на kdab.com . Ниже расположен снимок экрана одного из наших внутренних тестов; довольно простая (и красочная) сцена с 28 окнами просмотра:

Использование ЦП в этом тесте значительно сократилось в Qt 5.9.2 по сравнению с Qt 5.6.2, и компания Qt работает вместе с инженерами KDAB над рядом изменений, которые, как мы ожидаем, снизят нагрузку на ЦП еще больше в Qt 5.11:

Многие из улучшений производительности были перенесены на порт Qt 3D Studio, основанный на Qt 3D. Несмотря на то, что среда исполнения запланирована на выпуск в следующем году, мы уже сейчас добавляем улучшения производительности к текущей серии Qt 5.9.x LTS. Вот некоторые результаты тестов наших внутренних примеров Qt3D Studio:

Улучшения производительности добавлены во многих частях Qt 3D. Например, мы добавили поддержку эффективных форматов файлов, таких как glTF2. В этом посте мы подробно рассмотрим некоторые изменения, которые мы делаем для уменьшения использования ЦП, а в более позднем сообщении мы обсудим сокращение потребления памяти.

Улучшение решателя зависимостей заданий

Одно из улучшений производительности, которое мы сделали - это решатель зависимостей заданий Qt 3D. Qt 3D делит работу, которая должна выполняться каждый кадр на отдельные, более мелкие задания, которые могут выполняться параллельно. Задания являются частью гибкой архитектуры backend/frontend Qt 3D, которая отделяет интерфейс в основном потоке от бэкэнда, который состоит из аспектов, которые выполняют обработку рендеринга, ввода и анимацию (подробнее об этом в документации Qt 3D Overview ).

Бэкэнд запускает задания из разных аспектов пула потоков, и каждое задание может определять зависимости от других заданий, которые должны выполняться перед ним. Эти зависимости необходимо разрешать эффективно, потому что задания часто меняются от одного кадра к другому. Хотя это просто, когда количество заданий невелико, это становится все более трудоемким для сложных сцен с большими кадрами.

Профилируя наши примеры с помощью Callgrind , мы обнаружили узкие места производительности в определенных частях решателя зависимостей заданий. В частности, большой QVector всех зависимостей будет изменяться каждый раз, когда задание будет завершено, и соответствующие зависимости могут быть удалены из списка. Это резко снизило производительность.

Мы начали работу над решением, в котором мы полностью избавимся от QVector и будем хранить два списка связанных с заданием: один список состоит из того, от чего задание зависит, и другой из того, что от этого задания зависит.

class AspectTaskRunnable {
    // ... other definitions
    QVector m_dependencies;
    QVector m_dependers;
};

С помощью этого решения, когда задание завершится, оно может пройти через свой список m_dependers и удалить себя из списка m_dependencies в каждом из m_dependers. Если список m_dependers пуст, это задание может быть запущено. Однако, теперь у нас стало много маленьких QVectors, которые меняются все время. Хотя это лучше, чем изменение размера одного большого QVector, это все еще не оптимально.

Наконец, мы поняли, что, поскольку зависимости не могут меняться во время выполнения задания, нет необходимости отслеживать, что зависит от задания и от чего зависит это задание. Каждому заданию достаточно знать, какие задания зависят от него, и от какого количества заданий зависит оно само.

class AspectTaskRunnable {
    // ... other definitions
    int m_dependencyCount = 0;
    QVector<AspectTaskRunnable*> m_dependers;
};

Всякий раз, когда задание завершается, мы просматриваем список заданий в зависимости от него и вычитаем в них количество зависимостей на единицу. Последний код выглядит примерно так (бесстыдно упрощен для удобочитаемости):

void QThreadPooler::taskFinished(AspectTaskRunnable *job)
{
    const auto &dependers = job->m_dependers;
    for (auto &depender : dependers) {
        depender->m_dependencyCount--;
        if (depender->m_dependencyCount == 0) {
            m_threadPool.start(depender);
        }
    }
}

Внедряя это изменение, решатель зависимостей заданий стал незначительным вкладом в использовании ЦП, и мы смогли сосредоточиться на других узких местах.

Улучшение производительности QThreadPool

Другие части Qt также пользуются возможностями оптимизации, которые можно найти в наших тестах. Например, Qt 3D использует QThreadPool от Qt Core для автоматического управления заданиями и распределения их для разных потоков. Однако, как и в предыдущем случае, QThreadPool использовался для хранения заданий в QVector, который изменял свой размер при каждом завершении задания. Это не большая проблема, когда речь идет о небольшом количестве заданий, но это внезапно стало узким местом для сложных 3D-сцен Qt с большим количеством заданий.

Мы решили изменить реализацию QThreadPool, чтобы использовать более крупные «страницы очереди» и поместить указатели на эти страницы в QVector. На каждой странице мы отслеживаем индекс первого задания в очереди и индекс последнего задания в очереди:

class QueuePage {
    enum {
        MaxPageSize = 256;
    }; 
 
    // ... helper functions, etc.
 
    int m_firstIndex = 0;
    int m_lastIndex = -1;
    QRunnable *m_entries[MaxPageSize];
};

Теперь все, что нам нужно сделать, - это увеличить первый индекс всякий раз, когда задание завершается, и увеличить последний индекс при добавлении задания. Если нет больше места на странице, мы выделяем новую. Это простая и низкоуровневая реализация, но это эффективно.

Кэширование результатов конкретных заданий

Затем мы обнаружили, что определенные задания выделяются как очень требовательные к процессору. Некоторые из этих заданий, такие как QMaterialParameterGathererJob, выполняли много работы в каждом кадре, даже если результаты предыдущих кадров были одинаковыми. Это была ясная возможность для кеширования результатов для повышения производительности. Во-первых, давайте посмотрим, что делает QMaterialParameterGathererJob.

В Qt 3D вы можете переопределить значения каждого параметра, определенного в QRenderPass, установив его на QTechnique, QEffect или QMaterial, который использует этот проход рендеринга. Каждый параметр, в свою очередь, используется для определения однородного значения в финальной программе шейдеров. Этот код показывает пример QML, где параметр «цвет» установлен на всех уровнях:

Material {
    parameters: [
        Parameter { name: "color"; value: "red"}
    ]
    effect: Effect {
        parameters: [
            Parameter { name: "color"; value: "blue"}
        ]
        techniques: Technique {
              // ... graphics API filter, filter keys, etc.
 
              parameters: [
                  Parameter { name: "color"; value: "green"}
              ]
              renderPasses: RenderPass {
                  parameters: [
                      Parameter { name: "color"; value: "purple"}
                  ]
                  shaderProgram: ShaderProgram {
                      // vertex shader code, etc.
 
                      fragmentShaderCode: "
                          #version 130
                          uniform vec4 color;
                          out vec4 fragColor;
                          void main() {
                              fragColor = color;
                          }
                      "
                  }
              }
          }
    }
}

Чтобы выяснить конечное значение параметра, используемого в программе шейдеров, QMaterialParameterGathererJob просматривает все материалы в сцене и находит соответствующие эффекты, методы и проходы рендеринга. Затем, определяя приоритеты параметров, заданных в QMaterial, QEffect, QTechnique и QRenderPass, мы определяем окончательное значение параметра.В этом случае значение «красное», поскольку параметры QMaterial имеют наивысший приоритет.

Сбор всех параметров довольно трудоемкий в больших сценах со многими материалами и оказался узким местом для некоторых из наших примеров Qt 3D Studio. Поэтому мы решили кэшировать значения параметров, найденные QMaterialParameterGathererJob, но быстро поняли, что кеш всегда будет недействительным, если значения меняются каждый кадр. Это обычный случай, особенно если параметры анимированы. Вместо этого мы решили кэшировать указатели на объекты QParameter, а не их значения. Значения затем сохраняются вне кеша и извлекаются только при необходимости. Кэширование результатов привело к огромному увеличению производительности в сценах со многими параметрами, поскольку нам нужно было выполнять эту работу только при больших изменениях сцены, например при добавлении материалов.

Мы работали со многими подобными случаями, где мы брали несколько наших больших примеров, профилировали их, выявляли узкие места в конкретных заданиях, и работали, чтобы найти способы улучшения производительности или кэширования результатов. К счастью, система на основе заданий в Qt 3D упрощает оптимизацию или кеширование определенных заданий независимо, поэтому вы можете ожидать, что в предстоящие выпуски Qt 3D появятся дополнительные улучшения.

Статья написана: Svenn-Arne Dragly | Четверг, Ноябрь 16, 2017г.

Улучшение использования ЦП в Qt 3D

Улучшение решателя зависимостей заданий

Улучшение производительности QThreadPool

Кэширование результатов конкретных заданий

Рекомендуем хостинг TIMEWEB

Комментарии

Улучшение использования ЦП в Qt 3D

Улучшение решателя зависимостей заданий

Улучшение производительности QThreadPool

Кэширование результатов конкретных заданий

Рекомендуем хостинг TIMEWEB

Комментарии

Actions