Evgenii Legotckoi
Evgenii Legotckoi24 жовтня 2018 р. 02:38

Django - Підручник 038. Використовуйте BeatifulSoup 4, щоб очистити опублікований вміст від небажаних тегів html

При розвитку веб-сайту, на якому додана можливість писати коментарі або публікувати статті, в яких дозволена html-верстка, важливий механізм для очищення небажаних html-тегів, зокрема тегів script та style , оскільки шкідливі скрипти на якісному ресурсі точно не повинні бути присутніми. А також добре матиме можливість очищення стилю тексту, особливо якщо ресурс має на увазі одноманітний стиль. Різнобій кричучих шрифтів нікому не потрібен, та й проблем із версткою додає.

Для реалізації подібного механізму я використовую Python пакет Beautiful Soup 4 і нарешті написав один клас, який, по суті, робить все необхідне мені. Видаляє непотрібні теги, додає необхідні класи до тегів, зберігає класи в тегах, якщо при зачистці їх потрібно залишити, це важливо для класів, які додаються ще на етапі написання коментаря, наприклад, при вставці YouTube відео або додаванні програмного коду, коли користувач вибирає, яка саме мова програмування має бути представлена в блоці програмного коду.


Установка BeautifulSoup 4

pip install beautifulsoup4

Програмний код

Даний приклад представлений у вигляді класу, щоб можна було за допомогою успадкування та перевизначення методу очищення формувати необхідну логіку, а сам програмний код модуля для очищення html не перетворювався на колекцію різнорідних функцій, що мало поєднуються.

# -*- coding: utf-8 -*-

import re

from bs4 import BeautifulSoup
from YourDjangoApp import settings


class ESoup:
    # инициализация объекта очистки текста,
    # может использовать сразу получать допололнительные теги для удаления, чтобы не переопределять класс
    def __init__(self, text, tags_for_extracting=()):
        self.soup = BeautifulSoup(text, "lxml") if text else None
        self.tags_for_extracting = ('script', 'style',) + tags_for_extracting

    # Метод для удаления указанных тегов
    def __extract_tags(self, soup, tags=()):
        for tag in tags:
            for current_tag in soup.find_all(tag):
                current_tag.extract()
        return soup

    # Метод для удаления атрибутов у всех тегов
    def __remove_attrs(self, soup):
        for tag in soup.find_all(True):
            tag.attrs = {}
        return soup

    # Метод для удаления атрибутов у всех тегов кроме перечисленных в whitelist_tags
    def __remove_all_attrs_except(self, soup, whitelist_tags=()):
        for tag in soup.find_all(True):
            if tag.name not in whitelist_tags:
                tag.attrs = {}
        return soup

    # Удаление всех атрибутов у всех тегов, кроме перечисленных в whitelist_tags
    # Если тег есть в whitelist_tags у него будут удалены только те атрибуты, которые не перечислены в whitelist_attrs
    # Также данный метод сохраняет у тега классы, перечисленные в whitelist_classes
    # независимо от того, был ли он перечислен в whitelist_tags или в whitelist_attrs.
    # Просто у меня у классов особое положение для тегов
    def __remove_all_attrs_except_saving(self, soup, whitelist_tags=(), whitelist_attrs=(), whitelist_classes=()):
        for tag in soup.find_all(True):
            saved_classes = []
            if tag.has_attr('class'):
                classes = tag['class']
                for class_str in whitelist_classes:
                    if class_str in classes:
                        saved_classes.append(class_str)

            if tag.name not in whitelist_tags:
                tag.attrs = {}
            else:
                attrs = dict(tag.attrs)
                for attr in attrs:
                    if attr not in whitelist_attrs:
                        del tag.attrs[attr]

            if len(saved_classes) > 0:
                tag['class'] = ' '.join(saved_classes)

        return soup

    # Добавляет nofollow отношение в теге, проверяя url атрибута src или img
    # Если ссылка ведёт на внутренние страницы вашего сайта, то nofollow не будет добавлено
    def __add_rel_attr(self, soup, tag, attr):
        for tag in soup.find_all(tag):
            attr_content = tag.get(attr)
            if not attr_content.startswith(settings.SITE_URL) and not attr_content.startswith('/'):
                tag['rel'] = ['nofollow']
        return soup

    # Добавляет новые классы к тегу, сохраняя те классы, которые уже существовали
    def __add_class_attr(self, soup, tag, classes=()):
        for tag in soup.find_all(tag):
            saved_classes = []
            if tag.has_attr('class'):
                saved_classes.append(tag['class'])
            saved_classes.extend(list(classes))
            tag['class'] = ' '.join(saved_classes)
        return soup

    # Метод, выполняющий очистку, его предлагаю переопределять, если вам нужно изменить логику очистки html кода
    def clean(self):
        # BeutifulSoup был создан при инициализации, то можно выполнить очистку
        if self.soup:
            # Удаляем все теги, которые нам не нравятся
            soup = self.__extract_tags(soup=self.soup, tags=self.tags_for_extracting)
            # Удаляем все атрибуты у всех тегов, кроме
            # src и href у тегов img и a,
            # а также оставляем класс prettyprint
            soup = self.__remove_all_attrs_except_saving(
                soup=soup,
                whitelist_tags=('img', 'a'),
                whitelist_attrs=('src', 'href',),
                whitelist_classes=('prettyprint',)
            )
            # добавляем rel="nofollow" для внешних ссылок
            soup = self.__add_rel_attr(soup=soup, tag='a', attr='href')
            soup = self.__add_rel_attr(soup=soup, tag='img', attr='src')
            # улучшаем внешний вид изображений с помощью класса img-fluid
            soup = self.__add_class_attr(soup=soup, tag='img', classes=('img-fluid',))
            # добавляем класс linenums для pre тегов
            soup = self.__add_class_attr(soup=soup, tag='pre', classes=('linenums',))
            # возвращаем полезный контент, дело в том, что BeautifulSoup 4 добавляет ещё теги html и body,
            # которые мне, например, не нужны
            return re.sub('<body>|</body>', '', soup.body.prettify())
        return ''

    # Статический метод класса, что-то вроде Shortcuta
    @staticmethod
    def clean_text(text, tags_for_extracting=()):
        soup = ESoup(text=text, tags_for_extracting=tags_for_extracting)
        return soup.clean()

Застосування

Або так

soup = ESoup(text=text, tags_for_extracting=tags_for_extracting)
soup.clean()

Або так

ESoup.clean_text(text=text, tags_for_extracting=tags_for_extracting)
Рекомендуємо хостинг TIMEWEB
Рекомендуємо хостинг TIMEWEB
Стабільний хостинг, на якому розміщується соціальна мережа EVILEG. Для проектів на Django радимо VDS хостинг.

Вам це подобається? Поділіться в соціальних мережах!

Илья Чичак
  • 04 грудня 2018 р. 21:37

я думаю, что последний


    @staticmethod
    def clean_text(text, tags_for_extracting=()):
        soup = ESoup(text=text, tags_for_extracting=tags_for_extracting)
        return soup.clean()

есть смысл заменить на classmethod (при наследовании, старый вариант сломается, а с классом - нет):

    @classmethod
    def clean_text(cls, text, tags_for_extracting=()):
        soup = cls(text=text, tags_for_extracting=tags_for_extracting)
        return soup.clean()
Evgenii Legotckoi
  • 05 грудня 2018 р. 04:34

Спасибо за информацию, не думал об этом.

Надо будет проверить на кошках.

Коментарі

Only authorized users can post comments.
Please, Log in or Sign up
sf

C++ - Тест 004. Указатели, Массивы и Циклы

  • Результат:90бали,
  • Рейтинг балів8
МВ

Qt - Тест 001. Сигналы и слоты

  • Результат:68бали,
  • Рейтинг балів-1
ЛС

C++ - Тест 001. Первая программа и типы данных

  • Результат:53бали,
  • Рейтинг балів-4
Останні коментарі
A
ALO1ZE19 жовтня 2024 р. 08:19
Читалка файлів fb3 на Qt Creator Подскажите как это запустить? Я не шарю в программировании и кодинге. Скачал и установаил Qt, но куча ошибок выдается и не запустить. А очень надо fb3 переконвертировать в html
ИМ
Игорь Максимов05 жовтня 2024 р. 07:51
Django - Урок 064. Як написати розширення для Python Markdown Приветствую Евгений! У меня вопрос. Можно ли вставлять свои классы в разметку редактора markdown? Допустим имея стандартную разметку: <ul> <li></li> <li></l…
d
dblas505 липня 2024 р. 11:02
QML - Урок 016. База даних SQLite та робота з нею в QML Qt Здравствуйте, возникает такая проблема (я новичок): ApplicationWindow неизвестный элемент. (М300) для TextField и Button аналогично. Могу предположить, что из-за более новой верси…
k
kmssr08 лютого 2024 р. 18:43
Qt Linux - Урок 001. Автозапуск програми Qt під Linux как сделать автозапуск для флэтпака, который не даёт создавать файлы в ~/.config - вот это вопрос ))
АК
Анатолий Кононенко05 лютого 2024 р. 01:50
Qt WinAPI - Урок 007. Робота з ICMP Ping в Qt Без строки #include <QRegularExpressionValidator> в заголовочном файле не работает валидатор.
Тепер обговоріть на форумі
J
JacobFib17 жовтня 2024 р. 03:27
добавить qlineseries в функции Пользователь может получить любые разъяснения по интересующим вопросам, касающимся обработки его персональных данных, обратившись к Оператору с помощью электронной почты https://topdecorpro.ru…
ИМ
Игорь Максимов03 жовтня 2024 р. 04:05
Реализация навигации по разделам Спасибо Евгений!
JW
Jhon Wick01 жовтня 2024 р. 15:52
Indian Food Restaurant In Columbus OH| Layla’s Kitchen Indian Restaurant If you're looking for a truly authentic https://www.laylaskitchenrestaurantohio.com/ , Layla’s Kitchen Indian Restaurant is your go-to destination. Located at 6152 Cleveland Ave, Colu…
КГ
Кирилл Гусарев27 вересня 2024 р. 09:09
Не запускается программа на Qt: точка входа в процедуру не найдена в библиотеке DLL Написал программу на C++ Qt в Qt Creator, сбилдил Release с помощью MinGW 64-bit, бинарнику напихал dll-ки с помощью windeployqt.exe. При попытке запуска моей сбилженной программы выдаёт три оши…
F
Fynjy22 липня 2024 р. 04:15
при создании qml проекта Kits есть но недоступны для выбора Поставил Qt Creator 11.0.2. Qt 6.4.3 При создании проекта Qml не могу выбрать Kits, они все недоступны, хотя настроены и при создании обычного Qt Widget приложения их можно выбрать. В чем может …

Слідкуйте за нами в соціальних мережах