Блокиратор мата. Невозможность создания защиты от мата.
Часто возникает ситуация, когда в гостевых книгах, на форумах или чатах появляются сообщения, содержащие нецензурные выражения, или попросту мат. Многие задумываются о том, чтобы создать механизмы защиты от мата.
Исследовав проблему, можно с уверенностью сказать, что наилучшей защитой от мата является человеческий фактор. Модератор форума, чата, гостевой книги распознает любое проявление нецензурного поведения.
Давайте все же попробуем вывести некоторые правила при создании алгоритма блокиратора мата. Возьмем всем известное слово МИР и придумаем его вариации и защиту от них. Рассмотрим недостатки и достоинства каждой из линий оборонительного алгоритма.
МИР. Ищем слово МИР в тексте, и если находим, заменяем его на ***.
Мир. мИр, и т.д. Переводим все буквы текста в верхний регистр и переходим к пункту 1.
MИР. Первая буква латинская, вторая и третья - русские. Создаем шаблоны для всех комбинаций. Используем механизм пункта 2, переходим у пункту 1.
М|/|Р. Буква И - это набор символов |, /, |. Внешне они похожи на букву И. Добавляем шаблон такой комбинации и всех похожих комбинаций из пункта 3, переходим к пункту 2, затем, к пункту 1.
М_И_Р. Удаляем все "не буквы" из текста и вновь ищем по шаблонам требуемую словоформу.
МЫР. Замена буквы, не меняющая смысл. Можно заменить часть слова, и шаблоны не будут работать. Человек же точно определит в контексте фразы смысл слова.
ММИИРР. Повторение некоторых букв в слове. Здесь уже никакие шаблоны не помогут.
Недостатки рассмотренных методов:
Все многообразие шаблонов было создано лишь для одного слова. А сколько нецензурных слов хотя бы в русском языке? Вывод неутешительный.
Допустим, встретилась фраза МИРОВАЯ ЭКОНОМИКА. Блокиратор мата благополучно найдет и заменит ***ОВАЯ ЭКОНОМИКА. Замена произошла в безобидном слове. Наглядный пример другой фразы: ЗАСТРАХУЙТЕ ИМУЩЕСТВО.
Можно конечно искать отдельные слова, подходящие под созданные шаблоны, но как быть со словом Э_МИР_ТЕБЕ. Алгоритм превратит его в ЭМИРТЕБЕ и не посчитает это нецензурным словом.
Велик и могуч русский язык! Не отстает от него и русский матерный. На 50 нецензурных слов, которые мог бы перехватывать блокиратор мата, найдется еще 500 слов, которые преспокойно пройдут через блокиратор нетронутыми.
Продолжать дальше нет смысла. Человеческий фактор - вот на сегодняшний день единственное решение в борьбе с матом.
И не верьте тем, кто скажет, что у них есть алгоритм, который отсеивает мат. Может быть, есть небольшие фильтры, которые эффективно борются с некоторыми словами, но все же не решают глобальной проблемы борьбы с нецензурными выражениями.
PHP — это язык программирования, основанный на использовании скриптов. Данный язык широко применяется для создания различных front-end и back-end веб-приложений. Поддерживается по-умолчанию большинством хостеров, являясь одним из лидеров среди языков программирования, предназначенных для создания динамических интерактивных сайтов.
Интересные материалы на сайте:
Набор алгоритмов, позволяющих определить кодировку входной информации и преобразованию ее в читабельный вид.
Как с помощью простых алгоритмов определить цифры на картинке. Рассматривается пример с индексом цитирования от Яндекс.
Для увлекающихся текстовыми играми будет полезна статья, рассказывающая о методе безболезненного вывода текстовой информации на экран.
Для того, чтобы определить, нужно ли как-то обрабатывать файл, необходимо знать, какой у него тип.