Evgenii Legotckoi
Evgenii LegotckoiҚаз. 24, 2018, 2:38 Т.Ж.

Джанго - 038-сабақ. Жарияланған мазмұннан қажетсіз html тегтерін тазалау үшін BeatifulSoup 4 пайдалану

Мазмұны

Пікір жазу немесе html орналасуына мүмкіндік беретін мақалаларды жариялау мүмкіндігін қосатын веб-сайтты әзірлеу кезінде қажетсіз html тегтерін, атап айтқанда скрипт және стиль тегтерін тазалау механизмі маңызды, себебі зиянды сценарийлер сапалы ресурс олар міндетті түрде болмауы керек. Сондай-ақ, мәтіннің стилін тазарта алу жақсы болар еді, әсіресе ресурс біркелкі стильді білдірсе. Жарқыраған қаріптердің сәйкессіздігі ешкімге қажет емес және ол орналасу мәселелерін қосады.

Мен бұл механизмді жүзеге асыру үшін Python пакетін Әдемі сорпа 4 қолданамын және соңында маған қажет нәрсенің бәрін жасайтын бір сыныпты жаздым. Қажет емес тегтерді жояды, қажетті сыныптарды тегтерге қосады, сыныптарды жою кезінде қалдыру қажет болса, тегтерге сақтайды, бұл түсініктеме жазу сатысында, мысалы, YouTube бейнесін енгізу немесе бағдарлама қосу кезінде қосылған сыныптар үшін маңызды. код, пайдаланушы таңдаған кезде код блогында қандай бағдарламалау тілін көрсету керек.


BeautifulSoup орнату 4

pip install beautifulsoup4

Код

Бұл мысал тұқым қуалау және тазалау әдісін қайта анықтау арқылы қажетті логиканы қалыптастыруға болатындай класс ретінде ұсынылған, ал html тазалау модулінің бағдарламалық коды гетерогенді сәйкес келмейтін функциялар жиынына айналмайды.

# -*- coding: utf-8 -*-

import re

from bs4 import BeautifulSoup
from YourDjangoApp import settings


class ESoup:
    # инициализация объекта очистки текста,
    # может использовать сразу получать допололнительные теги для удаления, чтобы не переопределять класс
    def __init__(self, text, tags_for_extracting=()):
        self.soup = BeautifulSoup(text, "lxml") if text else None
        self.tags_for_extracting = ('script', 'style',) + tags_for_extracting

    # Метод для удаления указанных тегов
    def __extract_tags(self, soup, tags=()):
        for tag in tags:
            for current_tag in soup.find_all(tag):
                current_tag.extract()
        return soup

    # Метод для удаления атрибутов у всех тегов
    def __remove_attrs(self, soup):
        for tag in soup.find_all(True):
            tag.attrs = {}
        return soup

    # Метод для удаления атрибутов у всех тегов кроме перечисленных в whitelist_tags
    def __remove_all_attrs_except(self, soup, whitelist_tags=()):
        for tag in soup.find_all(True):
            if tag.name not in whitelist_tags:
                tag.attrs = {}
        return soup

    # Удаление всех атрибутов у всех тегов, кроме перечисленных в whitelist_tags
    # Если тег есть в whitelist_tags у него будут удалены только те атрибуты, которые не перечислены в whitelist_attrs
    # Также данный метод сохраняет у тега классы, перечисленные в whitelist_classes
    # независимо от того, был ли он перечислен в whitelist_tags или в whitelist_attrs.
    # Просто у меня у классов особое положение для тегов
    def __remove_all_attrs_except_saving(self, soup, whitelist_tags=(), whitelist_attrs=(), whitelist_classes=()):
        for tag in soup.find_all(True):
            saved_classes = []
            if tag.has_attr('class'):
                classes = tag['class']
                for class_str in whitelist_classes:
                    if class_str in classes:
                        saved_classes.append(class_str)

            if tag.name not in whitelist_tags:
                tag.attrs = {}
            else:
                attrs = dict(tag.attrs)
                for attr in attrs:
                    if attr not in whitelist_attrs:
                        del tag.attrs[attr]

            if len(saved_classes) > 0:
                tag['class'] = ' '.join(saved_classes)

        return soup

    # Добавляет nofollow отношение в теге, проверяя url атрибута src или img
    # Если ссылка ведёт на внутренние страницы вашего сайта, то nofollow не будет добавлено
    def __add_rel_attr(self, soup, tag, attr):
        for tag in soup.find_all(tag):
            attr_content = tag.get(attr)
            if not attr_content.startswith(settings.SITE_URL) and not attr_content.startswith('/'):
                tag['rel'] = ['nofollow']
        return soup

    # Добавляет новые классы к тегу, сохраняя те классы, которые уже существовали
    def __add_class_attr(self, soup, tag, classes=()):
        for tag in soup.find_all(tag):
            saved_classes = []
            if tag.has_attr('class'):
                saved_classes.append(tag['class'])
            saved_classes.extend(list(classes))
            tag['class'] = ' '.join(saved_classes)
        return soup

    # Метод, выполняющий очистку, его предлагаю переопределять, если вам нужно изменить логику очистки html кода
    def clean(self):
        # BeutifulSoup был создан при инициализации, то можно выполнить очистку
        if self.soup:
            # Удаляем все теги, которые нам не нравятся
            soup = self.__extract_tags(soup=self.soup, tags=self.tags_for_extracting)
            # Удаляем все атрибуты у всех тегов, кроме
            # src и href у тегов img и a,
            # а также оставляем класс prettyprint
            soup = self.__remove_all_attrs_except_saving(
                soup=soup,
                whitelist_tags=('img', 'a'),
                whitelist_attrs=('src', 'href',),
                whitelist_classes=('prettyprint',)
            )
            # добавляем rel="nofollow" для внешних ссылок
            soup = self.__add_rel_attr(soup=soup, tag='a', attr='href')
            soup = self.__add_rel_attr(soup=soup, tag='img', attr='src')
            # улучшаем внешний вид изображений с помощью класса img-fluid
            soup = self.__add_class_attr(soup=soup, tag='img', classes=('img-fluid',))
            # добавляем класс linenums для pre тегов
            soup = self.__add_class_attr(soup=soup, tag='pre', classes=('linenums',))
            # возвращаем полезный контент, дело в том, что BeautifulSoup 4 добавляет ещё теги html и body,
            # которые мне, например, не нужны
            return re.sub('<body>|</body>', '', soup.body.prettify())
        return ''

    # Статический метод класса, что-то вроде Shortcuta
    @staticmethod
    def clean_text(text, tags_for_extracting=()):
        soup = ESoup(text=text, tags_for_extracting=tags_for_extracting)
        return soup.clean()

Қолдану

Немесе солай

soup = ESoup(text=text, tags_for_extracting=tags_for_extracting)
soup.clean()

Немесе солай

ESoup.clean_text(text=text, tags_for_extracting=tags_for_extracting)
Рекомендуем хостинг TIMEWEB
Рекомендуем хостинг TIMEWEB
Стабильный хостинг, на котором располагается социальная сеть EVILEG. Для проектов на Django рекомендуем VDS хостинг.

Ол саған ұнайды ма? Әлеуметтік желілерде бөлісіңіз!

Илья Чичак
  • Жел. 4, 2018, 9:37 Т.Қ.

я думаю, что последний


    @staticmethod
    def clean_text(text, tags_for_extracting=()):
        soup = ESoup(text=text, tags_for_extracting=tags_for_extracting)
        return soup.clean()

есть смысл заменить на classmethod (при наследовании, старый вариант сломается, а с классом - нет):

    @classmethod
    def clean_text(cls, text, tags_for_extracting=()):
        soup = cls(text=text, tags_for_extracting=tags_for_extracting)
        return soup.clean()
Evgenii Legotckoi
  • Жел. 5, 2018, 4:34 Т.Ж.

Спасибо за информацию, не думал об этом.

Надо будет проверить на кошках.

Пікірлер

Тек рұқсаты бар пайдаланушылар ғана пікір қалдыра алады.
Кіріңіз немесе Тіркеліңіз
OI
  • Ora Iro
  • Жел. 24, 2024, 6:38 Т.Ж.

C++ - Тест 001. Первая программа и типы данных

  • Нәтиже:40ұпай,
  • Бағалау ұпайлары-8
AD

C++ - Тест 004. Указатели, Массивы и Циклы

  • Нәтиже:50ұпай,
  • Бағалау ұпайлары-4
m
  • molni99
  • Қаз. 26, 2024, 1:37 Т.Ж.

C++ - Тест 004. Указатели, Массивы и Циклы

  • Нәтиже:80ұпай,
  • Бағалау ұпайлары4
Соңғы пікірлер
ИМ
Игорь МаксимовҚар. 22, 2024, 11:51 Т.Ж.
Django - Оқулық 017. Теңшелген Django кіру беті Добрый вечер Евгений! Я сделал себе авторизацию аналогичную вашей, все работает, кроме возврата к предидущей странице. Редеректит всегда на главную, хотя в логах сервера вижу запросы на правильн…
Evgenii Legotckoi
Evgenii LegotckoiҚаз. 31, 2024, 2:37 Т.Қ.
Django - Сабақ 064. Python Markdown кеңейтімін қалай жазуға болады Добрый день. Да, можно. Либо через такие же плагины, либо с постобработкой через python библиотеку Beautiful Soup
A
ALO1ZEҚаз. 19, 2024, 8:19 Т.Ж.
Qt Creator көмегімен fb3 файл оқу құралы Подскажите как это запустить? Я не шарю в программировании и кодинге. Скачал и установаил Qt, но куча ошибок выдается и не запустить. А очень надо fb3 переконвертировать в html
ИМ
Игорь МаксимовҚаз. 5, 2024, 7:51 Т.Ж.
Django - Сабақ 064. Python Markdown кеңейтімін қалай жазуға болады Приветствую Евгений! У меня вопрос. Можно ли вставлять свои классы в разметку редактора markdown? Допустим имея стандартную разметку: <ul> <li></li> <li></l…
d
dblas5Шілде 5, 2024, 11:02 Т.Ж.
QML - Сабақ 016. SQLite деректер қоры және онымен QML Qt-та жұмыс істеу Здравствуйте, возникает такая проблема (я новичок): ApplicationWindow неизвестный элемент. (М300) для TextField и Button аналогично. Могу предположить, что из-за более новой верси…
Енді форумда талқылаңыз
Evgenii Legotckoi
Evgenii LegotckoiМаусым 24, 2024, 3:11 Т.Қ.
добавить qlineseries в функции Я тут. Работы оень много. Отправил его в бан.
t
tonypeachey1Қар. 15, 2024, 6:04 Т.Ж.
google domain [url=https://google.com/]domain[/url] domain [http://www.example.com link title]
NSProject
NSProjectМаусым 4, 2022, 3:49 Т.Ж.
Всё ещё разбираюсь с кешем. В следствии прочтения данной статьи. Я принял для себя решение сделать кеширование свойств менеджера модели LikeDislike. И так как установка evileg_core для меня не была возможна, ибо он писался…
9
9AnonimҚаз. 25, 2024, 9:10 Т.Ж.
Машина тьюринга // Начальное состояние 0 0, ,<,1 // Переход в состояние 1 при пустом символе 0,0,>,0 // Остаемся в состоянии 0, двигаясь вправо при встрече 0 0,1,>…

Бізді әлеуметтік желілерде бақылаңыз