Как вы думаете какой шрифт более близкий к тому который генерится в каптче ВК? вот 3 ВК каптчи: мне кажется эт Times New Roman
Убран волновой фоновый шум и произведена элементарная бинаризация изображения. Боюсь, что для распознавания этого не достаточно) Лучше попробуй решить следующие проблемы: 1) удаление 2х пересекающих капчу линий, которые существенно мешают распознаванию 2) сегментация символов А распознать уже разрезаные символы - это элементарно)
я для четкости бинаризировал, отсекание линий я нашел в одном из алгоритмов определения градиентных областей, символы у меня разделяет с 70% точностью я просто со шрифтом определится хочу, хотя уже не нужно, нашел оптимальный =) советую почитать: http://www.cognitive.ru/innovation/sbornic4/doc10.doc и здесь http://openocr.org/forum/viewtopic.php?f=5&t=15
ВК могут не волноваться, даже с полной оптимизацией капчу разбирает 30 сек и 10 распознает ))) самая быстрая система получается при распознавании слегка очищенной каптчи полным перебором средним размером шрифта, в этом случае примерно 10% правильных ответов и 20 сек на каждую каптчу. с полным разбором до 60% правильных и 40 сек на шт.
PabloPicasso, 40 сек - много. 60% - мало. Шрифт, ближе B52 - не нашёл. Но с B52 у меня процентов 95 есть, думаю.
программистом россии жалко заплатить бакс за 1000 капч а не жалко убить всю жизнь способом распознованием xD
Как уже понятно, нету как бе идеального. У меня вот так высекается (вторичный главный фильтр, убирает основное говно и каку) x := InThesePixelsQa(i,j); <- стандартный пейнтовский алгоритм (забирает кусок образца и вычисляет куб MaxX, MinX, MaxY, MinY pe := (x*100)/(((MaxX-MinX)+1)*((MaxY-MinY))+1); процент информативности if ( ( x/pe ) > gMinSymbHele где gMinSymbHele - мнимальное, для символа, собсно, значение. у линий и всякого мусора - оно слишком низкое. ну где-то 0.8 - единичка. - но это всё при условии, что у вас заранее символы отделены от линий (работа со слоями) у меня сделано именно так) Шрифт, как оказалось, дисительна нью тайм роман) токо, кажись, лапаются там и другие чары - а возможно искривление высокое) ну, в общем, я лично матрицы не юзаю - я пользуюсь формулой: число совпавших пикселей отнять модуль разницы числа пикселей сравниваемого символа со сравнимым. ну чё, работает кое-как, тема интересная, можно покопаться для фана ПС кому интересно, дабы базар не лить) slil. ru /28713027
Поддерживаю. Предлагаю закрытый клуб борцов против капчи сделать. Кто за? Думаю те кто в теме понимают какие это расходы несмотря на низкую стоимость капчи. все инвайтеры как минимум
Кодом не поделюсь, он дорогой сильна :х )) Могу подсказать кому интересно интересующие вещи, так сказать - это без проблем)
Процент распознавания зависит от режима, я думаю что процентов 30-40, не более. Скорость распознавания - ~200 MS (по возможности тут ускоряю, можно значительно меньше, но либо перекатывать вообще на асму или иные компоненты). Пс а сразу перекатыать не вариант - так как ещё "в доработке" ) Инвайтинг - всё норм. В инвайтинге по моим наблюдениям всё зависит от скорости ответа на капчу. Такие дела.