о самой задаче классификации текстовых документов можно почитать [здесь] Вероятностный подход дал свое начало с наивного байесовского классификатора (НБК), который изначально предполагает, что элементарные части текста (слова) встречаются независимо друг от друга. нам-то конечно такая ситуация кажется неестественной, потому что e-mail письмо с переставленными словами нельзя считать легитимным, точно так же лингвистические нормы любого языка предполагают зависимость хотя бы между соседними словами. если говорить о текстовом спаме, то в обход подобных фильтров можно составить письмо с предложением о покупке килограмма нижнего белья, а в конце указать сотню слов "интеграл", таким образом доставленное сообщение может вполне считаться трактатом по математике. зато с честным контентом ситуация совсем другая: если же документ действительно может быть отнесен к определенному классу, то даже НБК его отнесет куда следует. дальше..
выкладываю в догонку [заметку] по распределенному перебору относящейся все к тому же [BruteNet]'у. кстати, только недавно, совершенно случайно, нашел по сути ту же самую задачу [тут]
есть такая штука как квин - в программировании это просто программа выводящая свой собственный текст. пользы от такого неестественного издевательства над самим собой нет, в то же время если кому интересно Great написал такую штуку для C++, результат работы: [http://forum.antichat.ru/thread32235.html] но оказывается есть "математический" квин, подробнее: [http://mozg.by/content/matematicheskii-kvin] конечно с первого взгляда забавная штука, я даже W4FhLF кинул ссылку, но секрет оказался очень простым, смутило то, в каком виде подана идея изначально: нам дают неясное огромное число (которое не отображается на графике! по сути это если и квин, то в кавычках уж точно) и странное неестественное неравенство, при этом геометрическое место точек удовлетворяющих ему странным образом является тем же неравенством в графическом смысле. очень магично. постараюсь показать как можно было дойти до того же самого, но проще и логичнее: у нас в распоряжении битовое изображение (хотя с таким же успехом можно даже цветные рисунки строить;)): 1 - есть цвет, 0 - нет цвета. построим по нему число n в двоичном виде, например так: пробегаем по всем точкам с целыми координатами, берем и пишем соответствующий цвет точки (1 или 0) в бит числа по номеру x*Width+y, тогда изображение можно уже восстановить однозначно пробегая так же по всем точкам, проверяя на равенство: n&(1<<(x*Width+y))=1 так, осталось привести его к аналогичному арифметическому виду: mod(n/(2^(x*Width+y)),2)=1, ну и для еще большей путаницы сделаем его неравенством, поставив вправо ">1/2". Теперь нарисуем вручную получившееся неравенство в картинку и получим нужное n. вот и все, хотя там конечно интересно запутали - еще вроде как "убрали" n из неравенства сдвигом y;)
это моя курсовая работа по дискретной математике за 3-ий семестр, когда писал программу искал описание алгоритма нахождения минимального потока сети, простой вариант которого был в итоге найден в Кофмане: "Введение в прикладную комбинаторику", но и тот пришлось долго осмысливать, потому что некоторые вещи просто-напросто были описаны с расчетом на то что наверное никто их читать и не будет.. запутано короче говоря, но если кто-то окажется в ситуации похожей на мою - пожалуйста [пользуйтесь] примечание - на вход подаем данные в виде: N - кол-во узлов сети, и дальше в виде: i j c это значит, что i и j узел соединены и при этом пропускная способность равна c.
когда писал [BruteNet] я решил, что управление сервером будет вестись из веб-админки, в силу нескольких причин веб-сервер должен был быть связан с сервером перебора одним адресным пространством, поэтому никакой речи о использовании php+apache не шло, в то же время разделяемая память была очень уж неуместна...
в "программировании" на php практически никогда не нужно думать об алгоритмической части скрипта, хотя бы потому, что встроенный набор расширений позволяет делать все, что душе веб-программиста угодно, в том числе использовать мощнейшую штуку - регулярные выражения. часто возникает следующая задача: корректным и безопасным образом преобразовать bb-код, со своими правилами ведения тегов, несколько более примитивными по сравнению со своими смысловыми аналогами html. Во-первых, рядовому пользователю куда проще запомнить синтаксис основных bb-тегов с максимум двумя аргументами, а во-вторых, их действительно можно просто обработать в html-сущности не давая возможности разрушить целостность обрамляющих тегов и выполнения нежелательных скриптов в браузере остальных пользователей...
уже как несколько месяцев заброшенный "проект" по распределенным вычислениям, связанных с прямым и полным перебором. официальная страничка - [http://brutenet.sourceforge.org] видео по использованию - [brutenet_avi.rar] ну и кому лень качать скрин с панели управления:полное описание [дальше] хотя там много вранья, что мол он будет развиваться и тд: единственное, что подготовленно, так это [мануал] по написанию расширений.
выкладываю мою самую первую интересную программу - игра в точки с компьютером в качестве противника .. поверить сложно, но последний раз я смотрел в ее исходники больше чем три года назад. кому как, а для меня срок не малый:сама игрушка [The Points]
уже прошло много времени с момента последней работы моей домашней странички, и сегодня что-то заставило меня завести ее снова в старом очертании:) возможно это связанно с тем, что блог на [http://itdefence.ru] не оправдал моих ожиданий, а жж использовать для технических мыслей не было бы разумным. короче говоря, приветствую!