Django - Урок 038. Использование BeatifulSoup 4 для очистки публикуемого контента от нежелательных html тегов

BeaftifulSoup4, Django, Python, HTML, Python 3

При развитии веб-сайта, на котором добавлена возможность писать комментарии или публиковать статьи, в которых разрешена html-вёрстка , важен механизм для очистки нежелательных html-тегов, в частности тегов script и style , поскольку вредоносные скрипты на качественном ресурсе точно не должны присутствовать. А также хорошо будет иметь возможность очистки стиля текста, особенно, если ресурс подразумевает единообразный стиль. Разнобой кричащих шрифтов никому не нужен, да и проблем с вёрсткой добавляет.

Для реализации подобного механизма я использую Python пакет Beautiful Soup 4 и наконец-то написал один класс, который по сути делает всё необходимое мне. Удаляет ненужные теги, добавляет необходимые классы к тегам, сохраняет классы в тегах, если при зачистке их нужно оставить, это важно для классов, которые добавляются ещё на этапе написания комментария, например, при вставке YouTube видео или добавлении программного кода, когда пользователь выбирает, какой именно язык программирования должен быть представлен в блоке программного кода.

Установка BeautifulSoup 4

pip install beautifulsoup4

Программный код

Данный пример представлен в виде класса, чтобы можно было с помощью наследования и переопределения метода очистки формировать необходимую логику, а сам программный код модуля для очистки html не превращался в коллекцию разнородных малосочитающихся функций.

# -*- coding: utf-8 -*-

import re

from bs4 import BeautifulSoup
from YourDjangoApp import settings


class ESoup:
    # инициализация объекта очистки текста,
    # может использовать сразу получать допололнительные теги для удаления, чтобы не переопределять класс
    def __init__(self, text, tags_for_extracting=()):
        self.soup = BeautifulSoup(text, "lxml") if text else None
        self.tags_for_extracting = ('script', 'style',) + tags_for_extracting

    # Метод для удаления указанных тегов
    def __extract_tags(self, soup, tags=()):
        for tag in tags:
            for current_tag in soup.find_all(tag):
                current_tag.extract()
        return soup

    # Метод для удаления атрибутов у всех тегов
    def __remove_attrs(self, soup):
        for tag in soup.find_all(True):
            tag.attrs = {}
        return soup

    # Метод для удаления атрибутов у всех тегов кроме перечисленных в whitelist_tags
    def __remove_all_attrs_except(self, soup, whitelist_tags=()):
        for tag in soup.find_all(True):
            if tag.name not in whitelist_tags:
                tag.attrs = {}
        return soup

    # Удаление всех атрибутов у всех тегов, кроме перечисленных в whitelist_tags
    # Если тег есть в whitelist_tags у него будут удалены только те атрибуты, которые не перечислены в whitelist_attrs
    # Также данный метод сохраняет у тега классы, перечисленные в whitelist_classes
    # независимо от того, был ли он перечислен в whitelist_tags или в whitelist_attrs.
    # Просто у меня у классов особое положение для тегов
    def __remove_all_attrs_except_saving(self, soup, whitelist_tags=(), whitelist_attrs=(), whitelist_classes=()):
        for tag in soup.find_all(True):
            saved_classes = []
            if tag.has_attr('class'):
                classes = tag['class']
                for class_str in whitelist_classes:
                    if class_str in classes:
                        saved_classes.append(class_str)

            if tag.name not in whitelist_tags:
                tag.attrs = {}
            else:
                attrs = dict(tag.attrs)
                for attr in attrs:
                    if attr not in whitelist_attrs:
                        del tag.attrs[attr]

            if len(saved_classes) > 0:
                tag['class'] = ' '.join(saved_classes)

        return soup

    # Добавляет nofollow отношение в теге, проверяя url атрибута src или img
    # Если ссылка ведёт на внутренние страницы вашего сайта, то nofollow не будет добавлено
    def __add_rel_attr(self, soup, tag, attr):
        for tag in soup.find_all(tag):
            attr_content = tag.get(attr)
            if not attr_content.startswith(settings.SITE_URL) and not attr_content.startswith('/'):
                tag['rel'] = ['nofollow']
        return soup

    # Добавляет новые классы к тегу, сохраняя те классы, которые уже существовали
    def __add_class_attr(self, soup, tag, classes=()):
        for tag in soup.find_all(tag):
            saved_classes = []
            if tag.has_attr('class'):
                saved_classes.append(tag['class'])
            saved_classes.extend(list(classes))
            tag['class'] = ' '.join(saved_classes)
        return soup

    # Метод, выполняющий очистку, его предлагаю переопределять, если вам нужно изменить логику очистки html кода
    def clean(self):
        # BeutifulSoup был создан при инициализации, то можно выполнить очистку
        if self.soup:
            # Удаляем все теги, которые нам не нравятся
            soup = self.__extract_tags(soup=self.soup, tags=self.tags_for_extracting)
            # Удаляем все атрибуты у всех тегов, кроме
            # src и href у тегов img и a,
            # а также оставляем класс prettyprint
            soup = self.__remove_all_attrs_except_saving(
                soup=soup,
                whitelist_tags=('img', 'a'),
                whitelist_attrs=('src', 'href',),
                whitelist_classes=('prettyprint',)
            )
            # добавляем rel="nofollow" для внешних ссылок
            soup = self.__add_rel_attr(soup=soup, tag='a', attr='href')
            soup = self.__add_rel_attr(soup=soup, tag='img', attr='src')
            # улучшаем внешний вид изображений с помощью класса img-fluid
            soup = self.__add_class_attr(soup=soup, tag='img', classes=('img-fluid',))
            # добавляем класс linenums для pre тегов
            soup = self.__add_class_attr(soup=soup, tag='pre', classes=('linenums',))
            # возвращаем полезный контент, дело в том, что BeautifulSoup 4 добавляет ещё теги html и body,
            # которые мне, например, не нужны
            return re.sub('<body>|</body>', '', soup.body.prettify())
        return ''

    # Статический метод класса, что-то вроде Shortcuta
    @staticmethod
    def clean_text(text, tags_for_extracting=()):
        soup = ESoup(text=text, tags_for_extracting=tags_for_extracting)
        return soup.clean()

Применение

Или так

soup = ESoup(text=text, tags_for_extracting=tags_for_extracting)
soup.clean()

Или так

ESoup.clean_text(text=text, tags_for_extracting=tags_for_extracting)





Возврат 10% от суммы заказа отеля на Booking
Возврат 10% от суммы заказа отеля на Booking
Предлагаем ссылку с 10% возвратом от суммы заказа при бронировании отеля через Booking
Поддержать автора Donate

я думаю, что последний


    @staticmethod
    def clean_text(text, tags_for_extracting=()):
        soup = ESoup(text=text, tags_for_extracting=tags_for_extracting)
        return soup.clean()

есть смысл заменить на classmethod (при наследовании, старый вариант сломается, а с классом - нет):

    @classmethod
    def clean_text(cls, text, tags_for_extracting=()):
        soup = cls(text=text, tags_for_extracting=tags_for_extracting)
        return soup.clean()

Спасибо за информацию, не думал об этом.

Надо будет проверить на кошках.

Комментарии

Только авторизованные пользователи могут публиковать комментарии.
Пожалуйста, авторизуйтесь или зарегистрируйтесь
TT
13 июня 2019 г. 19:01
Taimoor Tanweer

C++ - Тест 001. Первая программа и типы данных

  • Результат:66баллов,
  • Очки рейтинга-1
TT
13 июня 2019 г. 18:51
Taimoor Tanweer

C++ - Тест 002. Константы

  • Результат:75баллов,
  • Очки рейтинга2
ВМ
13 июня 2019 г. 12:30
Ваня Мороз

C++ - Тест 001. Первая программа и типы данных

  • Результат:100баллов,
  • Очки рейтинга10
Последние комментарии
МБ
20 июня 2019 г. 18:23
Михаил Булатов

А если мне нужно сделать конект из дочернего qml?Сигнал работает только из main.qml
i
17 июня 2019 г. 6:10
ingenfly

Только по осям xAxis2, уAxis2 значения начинаются с 0. Почему-то xAxis2 и xAxis не синхронизированы по данным. Ну и QCustomPlot последний.
16 июня 2019 г. 20:21
Евгений Легоцкой

Добрый день. Ну точно также добавляете ту же самую информацию на ось xAxis2, только добавляете другое форматирование customPlot->xAxis2->setDateTimeFormat("hh:mm"); если я ...
EF
14 июня 2019 г. 13:56
Egor Fomin

Спасибо за ваш ответ, у меня получилось реализовать это. Тем не менее появилась другая проблема, поэтому опять надеюсь на вашу помощь. Скажем, я уже выставил точки и они соеденены. Когда я нач...
d
13 июня 2019 г. 14:47
damix

Можно классу, который описывает точку, добавить сигнал, который подавать (emit), когда точка перемещается (переопределить mouseMoveEvent или mouseReleaseEvent). Так вот эти сигналы у каждой из...
Сейчас обсуждают на форуме
20 июня 2019 г. 9:30
IscanderChe

Вернулся к этой задачке только-только, поэтому и не ответил ничего раньше.Как переопределить mouseReleaseEvent(QMouseEvent* event) у QTableView, если QTableView задан в ui? Или задавать QTabl...
I
19 июня 2019 г. 13:41
Intruder

Всем добрый день. При разборе XML файла наткнулся на тег вот такого плана: <TagName attribute1="value1" attribute2="value2" /> При попытке проверить на наличие такого элеме...
19 июня 2019 г. 12:55
Михаиллл

Скажите пожалуйста, как его в таком случае перемещать и удалять?
18 июня 2019 г. 19:50
Дмитрий

Большое спасибо! SDK заработал.К сожалению удалось продвинутся только на один шаг. При сборке чистого проекта NDK выдаёт следующие ошибки C:\Android\ndk-bundle/toolchains/arm-linux-andr...
18 июня 2019 г. 16:59
Михаиллл

Добрый день.В этом учебнике представлен код INSTALLED_APPS = ( ... 'rest_framework', 'snippets.apps.SnippetsConfig',) На строчке 'snippets.apps.SnippetsConf...
Ищу работу?
25,000.00 руб. - 30,000.00 руб.
Разработчик Qt/C++
Barnaul, Altai Krai, Russia

Для зарегистрированных пользователей на сайте присутствует минимальное количество рекламы

EVILEG
О нас
Услуги
Присоединяйтесь к нам
© EVILEG 2015-2019
Рекомендует хостинг TIMEWEB