Evgenii Legotckoi
Evgenii Legotckoi24. Oktober 2018 02:38

Django - Tutorial 038. Verwenden Sie BeatifulSoup 4, um den veröffentlichten Inhalt von unerwünschten HTML-Tags zu bereinigen

Inhalt

Bei der Entwicklung einer Website, die die Möglichkeit hinzufügt, Kommentare zu schreiben oder Artikel zu veröffentlichen, die ein HTML-Layout zulassen, ist ein Mechanismus zum Entfernen unerwünschter HTML-Tags, insbesondere script - und style -Tags, wichtig, da bösartige Skripte auf a Qualitätsressource sollten sie definitiv nicht vorhanden sein. Es wäre auch schön, den Stil des Textes bereinigen zu können, insbesondere wenn die Ressource einen einheitlichen Stil impliziert. Niemand braucht die Inkonsistenz auffälliger Schriftarten, und sie fügt Probleme mit dem Layout hinzu.

Um diesen Mechanismus zu implementieren, verwende ich das Python -Paket Beautiful Soup 4 und habe schließlich eine Klasse geschrieben, die im Wesentlichen alles tut, was ich brauche. Entfernt unnötige Tags, fügt Tags notwendige Klassen hinzu, speichert Klassen in Tags, wenn sie beim Entfernen verlassen werden müssen. Dies ist wichtig für Klassen, die beim Schreiben eines Kommentars hinzugefügt werden, z. B. beim Einfügen eines YouTube-Videos oder beim Hinzufügen eines Programms Code, wenn der Benutzer auswählt, welche Programmiersprache im Codeblock dargestellt werden soll.


Installieren von BeautifulSoup 4

pip install beautifulsoup4

-Code

Dieses Beispiel wird als Klasse dargestellt, damit durch Vererbung und Neudefinition der Bereinigungsmethode die notwendige Logik gebildet werden kann und der Programmcode des Moduls zur Bereinigung von html nicht zu einer Sammlung heterogener inkonsistenter Funktionen wird.

# -*- coding: utf-8 -*-

import re

from bs4 import BeautifulSoup
from YourDjangoApp import settings


class ESoup:
    # инициализация объекта очистки текста,
    # может использовать сразу получать допололнительные теги для удаления, чтобы не переопределять класс
    def __init__(self, text, tags_for_extracting=()):
        self.soup = BeautifulSoup(text, "lxml") if text else None
        self.tags_for_extracting = ('script', 'style',) + tags_for_extracting

    # Метод для удаления указанных тегов
    def __extract_tags(self, soup, tags=()):
        for tag in tags:
            for current_tag in soup.find_all(tag):
                current_tag.extract()
        return soup

    # Метод для удаления атрибутов у всех тегов
    def __remove_attrs(self, soup):
        for tag in soup.find_all(True):
            tag.attrs = {}
        return soup

    # Метод для удаления атрибутов у всех тегов кроме перечисленных в whitelist_tags
    def __remove_all_attrs_except(self, soup, whitelist_tags=()):
        for tag in soup.find_all(True):
            if tag.name not in whitelist_tags:
                tag.attrs = {}
        return soup

    # Удаление всех атрибутов у всех тегов, кроме перечисленных в whitelist_tags
    # Если тег есть в whitelist_tags у него будут удалены только те атрибуты, которые не перечислены в whitelist_attrs
    # Также данный метод сохраняет у тега классы, перечисленные в whitelist_classes
    # независимо от того, был ли он перечислен в whitelist_tags или в whitelist_attrs.
    # Просто у меня у классов особое положение для тегов
    def __remove_all_attrs_except_saving(self, soup, whitelist_tags=(), whitelist_attrs=(), whitelist_classes=()):
        for tag in soup.find_all(True):
            saved_classes = []
            if tag.has_attr('class'):
                classes = tag['class']
                for class_str in whitelist_classes:
                    if class_str in classes:
                        saved_classes.append(class_str)

            if tag.name not in whitelist_tags:
                tag.attrs = {}
            else:
                attrs = dict(tag.attrs)
                for attr in attrs:
                    if attr not in whitelist_attrs:
                        del tag.attrs[attr]

            if len(saved_classes) > 0:
                tag['class'] = ' '.join(saved_classes)

        return soup

    # Добавляет nofollow отношение в теге, проверяя url атрибута src или img
    # Если ссылка ведёт на внутренние страницы вашего сайта, то nofollow не будет добавлено
    def __add_rel_attr(self, soup, tag, attr):
        for tag in soup.find_all(tag):
            attr_content = tag.get(attr)
            if not attr_content.startswith(settings.SITE_URL) and not attr_content.startswith('/'):
                tag['rel'] = ['nofollow']
        return soup

    # Добавляет новые классы к тегу, сохраняя те классы, которые уже существовали
    def __add_class_attr(self, soup, tag, classes=()):
        for tag in soup.find_all(tag):
            saved_classes = []
            if tag.has_attr('class'):
                saved_classes.append(tag['class'])
            saved_classes.extend(list(classes))
            tag['class'] = ' '.join(saved_classes)
        return soup

    # Метод, выполняющий очистку, его предлагаю переопределять, если вам нужно изменить логику очистки html кода
    def clean(self):
        # BeutifulSoup был создан при инициализации, то можно выполнить очистку
        if self.soup:
            # Удаляем все теги, которые нам не нравятся
            soup = self.__extract_tags(soup=self.soup, tags=self.tags_for_extracting)
            # Удаляем все атрибуты у всех тегов, кроме
            # src и href у тегов img и a,
            # а также оставляем класс prettyprint
            soup = self.__remove_all_attrs_except_saving(
                soup=soup,
                whitelist_tags=('img', 'a'),
                whitelist_attrs=('src', 'href',),
                whitelist_classes=('prettyprint',)
            )
            # добавляем rel="nofollow" для внешних ссылок
            soup = self.__add_rel_attr(soup=soup, tag='a', attr='href')
            soup = self.__add_rel_attr(soup=soup, tag='img', attr='src')
            # улучшаем внешний вид изображений с помощью класса img-fluid
            soup = self.__add_class_attr(soup=soup, tag='img', classes=('img-fluid',))
            # добавляем класс linenums для pre тегов
            soup = self.__add_class_attr(soup=soup, tag='pre', classes=('linenums',))
            # возвращаем полезный контент, дело в том, что BeautifulSoup 4 добавляет ещё теги html и body,
            # которые мне, например, не нужны
            return re.sub('<body>|</body>', '', soup.body.prettify())
        return ''

    # Статический метод класса, что-то вроде Shortcuta
    @staticmethod
    def clean_text(text, tags_for_extracting=()):
        soup = ESoup(text=text, tags_for_extracting=tags_for_extracting)
        return soup.clean()

Anwendung

Oder so

soup = ESoup(text=text, tags_for_extracting=tags_for_extracting)
soup.clean()

Oder so

ESoup.clean_text(text=text, tags_for_extracting=tags_for_extracting)
Рекомендуємо хостинг TIMEWEB
Рекомендуємо хостинг TIMEWEB
Stabiles Hosting des sozialen Netzwerks EVILEG. Wir empfehlen VDS-Hosting für Django-Projekte.

Magst du es? In sozialen Netzwerken teilen!

Илья Чичак
  • 4. Dezember 2018 21:37

я думаю, что последний


    @staticmethod
    def clean_text(text, tags_for_extracting=()):
        soup = ESoup(text=text, tags_for_extracting=tags_for_extracting)
        return soup.clean()

есть смысл заменить на classmethod (при наследовании, старый вариант сломается, а с классом - нет):

    @classmethod
    def clean_text(cls, text, tags_for_extracting=()):
        soup = cls(text=text, tags_for_extracting=tags_for_extracting)
        return soup.clean()
Evgenii Legotckoi
  • 5. Dezember 2018 04:34

Спасибо за информацию, не думал об этом.

Надо будет проверить на кошках.

Kommentare

Nur autorisierte Benutzer können Kommentare posten.
Bitte Anmelden oder Registrieren
Letzte Kommentare
ИМ
Игорь Максимов5. Oktober 2024 07:51
Django – Lektion 064. So schreiben Sie eine Python-Markdown-Erweiterung Приветствую Евгений! У меня вопрос. Можно ли вставлять свои классы в разметку редактора markdown? Допустим имея стандартную разметку: <ul> <li></li> <li></l…
d
dblas55. Juli 2024 11:02
QML - Lektion 016. SQLite-Datenbank und das Arbeiten damit in QML Qt Здравствуйте, возникает такая проблема (я новичок): ApplicationWindow неизвестный элемент. (М300) для TextField и Button аналогично. Могу предположить, что из-за более новой верси…
k
kmssr8. Februar 2024 18:43
Qt Linux - Lektion 001. Autorun Qt-Anwendung unter Linux как сделать автозапуск для флэтпака, который не даёт создавать файлы в ~/.config - вот это вопрос ))
Qt WinAPI - Lektion 007. Arbeiten mit ICMP-Ping in Qt Без строки #include <QRegularExpressionValidator> в заголовочном файле не работает валидатор.
EVA
EVA25. Dezember 2023 10:30
Boost - statisches Verknüpfen im CMake-Projekt unter Windows Ошибка LNK1104 часто возникает, когда компоновщик не может найти или открыть файл библиотеки. В вашем случае, это файл libboost_locale-vc142-mt-gd-x64-1_74.lib из библиотеки Boost для C+…
Jetzt im Forum diskutieren
J
JacobFib17. Oktober 2024 03:27
добавить qlineseries в функции Пользователь может получить любые разъяснения по интересующим вопросам, касающимся обработки его персональных данных, обратившись к Оператору с помощью электронной почты https://topdecorpro.ru…
JW
Jhon Wick1. Oktober 2024 15:52
Indian Food Restaurant In Columbus OH| Layla’s Kitchen Indian Restaurant If you're looking for a truly authentic https://www.laylaskitchenrestaurantohio.com/ , Layla’s Kitchen Indian Restaurant is your go-to destination. Located at 6152 Cleveland Ave, Colu…
КГ
Кирилл Гусарев27. September 2024 09:09
Не запускается программа на Qt: точка входа в процедуру не найдена в библиотеке DLL Написал программу на C++ Qt в Qt Creator, сбилдил Release с помощью MinGW 64-bit, бинарнику напихал dll-ки с помощью windeployqt.exe. При попытке запуска моей сбилженной программы выдаёт три оши…
F
Fynjy22. Juli 2024 04:15
при создании qml проекта Kits есть но недоступны для выбора Поставил Qt Creator 11.0.2. Qt 6.4.3 При создании проекта Qml не могу выбрать Kits, они все недоступны, хотя настроены и при создании обычного Qt Widget приложения их можно выбрать. В чем может …

Folgen Sie uns in sozialen Netzwerken