Данный скрипт предназначен дря проверки регулярных выражений
стандарта PCRE, совместимых с языками Javascript, Perl, PHP и сервером
Apache на предмет сопоставления с последовательностями символов,
хранящихся в некоторых файлах.
Скрипт проверялся на конкретной задаче - исключении матерных
выражений из чата хаба Verlihub. Проверка проводилась на основе одного
из вариантов орфографического словаря Зализняка (31М, 86330 словарных
статей, 2644835 слов) и довольно представительного лога чата хаба
(~150000 строк, 7,5М). В результате удалось значительно сократить
количество ложных срабатываний регулярных выражений, используемых ботом
"Антимат", при хороших показателях распознавания мата (с учетом
некоторых вариантов его умышленного искажения, вариаций написания и
орфографических ошибок).
Желающие ознакомиться могут скачать скрипт в двух вариантах: со
словарём Зализняка (mat_stop.rar, 5М
http://www.illustr.narod.ru/txt/mat_stop.rar) и без него (mat_st0p.rar,
28К прикреплённый или http://www.illustr.narod.ru/txt/mat_st0p.rar)
Скрипт испоьзуется в "ручном" режиме. Оболочка в данное время разрабатывается.
Источник: http://dc.hovel.ru
|