Кто-нибудь встречал словари с казахскими именами? Ну, например "Serik1996" и т.д.? Даже не знаю, как такой словарь составить можно. Нужно где-то найти популярные казахские имена и сделать словарь с разными вариантами написания, в том числе и с датами рождения.
Я делал такой словарь мусульманских имен, в т.ч и казахских женских и мужских. http://rgho.st/6HylcQ5MR
А как теперь добавить даты рождения? Половина мусульманских имён короче 8 символов. С датами рождения, если, например, брать от 1950 по 2016 год не такой уж большой словарь будет, но чем его сделать? Разобрался. Сделал словарь с цифрами от 1950 до 2016, 50 до 16 и выбрал в Elcomsoft Wireless комбинированную атаку. http://rgho.st/private/8FRrDlRp4/3588be91b568cb77da113fa2df281b15
fire-dance Спасибо за словарь! Респект. Но есть одно но... Чистка первого же файла утилитой от Hash Manager дала следуюший результат: Code: D:\Dictionarys\ClearDictionary>RemoveSpecialChar.exe "1"[/COLOR][/COLOR] [COLOR=#ffff00][COLOR=#ffffff]Processing... Characters removed: 4405736. Processing... Lines saved: 70372704, converted: 0.. Так что есть, что чистить....
Пара скриптов Линукса для чистки от Веб-мусора и мэйлов: Code: # Remove HTML Tags htmlTags="a|b|big|blockquote|body|br|center|code|del|div|em|font|h[1-9]|head|hr|html|i|img|ins|item|li|ol|option|p|pre|s|small|span|strong|sub|sup|table|td|th|title|tr|tt|u|ul" cat datei.txt | sed -r "s/<[^>]*>//g;s/^\w.*=\"\w.*\">//;s/^($htmlTags)>//I;s/<\/*($htmlTags)$//I;s/&*/&/gI;s/"/\"/gI;s/'/'/gI;s/'/'/gI;s/</</gI;s/£/£/gI" | sort -b -f -i -T "$(pwd)/" | uniq > no_webs.txt Code: # Remove Email addresses cat datei.txt | sed -r "s/\w.*\@.*\.(ac|ag|am|as|at|au|az|be|bg|bill|bm|bs|by|c|ca|cc|ch|cm|co|com|cs|de|dk|edu|es|fi|fm|fr|gov|gr|hr|hu|ic|ie|il|info|it|jo|jp|kg|kr|kz|lk|lu|lv|md|me|mil|mu|net|nil|nl|no|nt|org|pk|pl|pt|ru|se|si|su|tc|tj|tk|tm|to|tv|tw|ua|uk|us|uz|ws|yu):*//gI" | sort -b -f -i -T "$(pwd)/" | uniq > no_mails.txt
Для тех, кому нужны умляуты или другие европейские спецбуквы, которэ имеют привычку преврашаться в кракозяблы после конвертации между UTF-8/Win1252... Code: sed -f fix.sed < datei.txt > UTF-8_WIN_1252.txt fix.sed: Code: s/ä/ä/g s/ö/ö/g s/ü/ü/g s/Ä/Ä/g s/Ö/Ö/g s/Ãœ/Ü/g s/ß/ß/g s/á/á/g s/à /à/g s/â/â/g s/Ã/Á/g s/À/À/g s/Â/Â/g s/é/é/g s/è/è/g s/ê/ê/g s/É/É/g s/È/È/g s/Ê/Ê/g s/Ã/í/g s/ì/ì/g s/î/î/g s/Ã/Í/g s/ÃŒ/Ì/g s/ÃŽ/Î/g s/ó/ó/g s/ò/ò/g s/ô/ô/g s/Ó/Ó/g s/Ã’/Ò/g s/Ô/Ô/g s/ú/ú/g s/ù/ù/g s/û/û/g s/Ú/Ú/g s/Ù/Ù/g s/Û/Û/g Работает не всегда точно! Так что всегда сохраняйте исходник.
я в линуксе не очень за кракозябры знаю там их полно но мыла не хотел удалять Можно пробывать чистить словарь таким способом уменьшая словарь 5-10 гиг может скинет
--------------- jellena Aeksandra Natalie Natalias Andrej -------------- В коллекцию "ИМЕНА" .Написано как есть (РОССИЯ) .Ошибок нет.
подскажите как избавиться от <feff> в начале некоторых строк словаря (в линукс). это видно в vim и из-за этого при попытке редакции словаря не удаляются семиразрядные имеющие в начале такое. будет способ тогда им домучьте вот этот словарь: http://dropmefiles.com/jwcIh исходник с именами взят на форуме. спасибо поделившемуся.
Вырезать <feff> в начале строки: sed 's/^<feff>//' Удалить все слово начинающееся на <feff>: sed '/^<feff>/d'
просто снёсли всё, что содержало этот довесок. ну ладно там вообще и проблема то была похоже только с "abba" с маленькой буквы. не так много.