Еще оди словарь собранный из нескольких десятков маленьких словаре.провел объединение, сортировку, очистку от дублей и очистку от ÖπéïπÇéπüù, а также удалил все пароли меньше 8 символов. https://yadi.sk/d/90QFIU_7hGsV2
Что я сделал не так? Подскажите пожалуйста буду благодарен. и что эта за программа у вас? как называется? cat 1.lst 2.lst 3.lst | sort | uniq | sed -n '/^.\{8\}/p' > result.txt sed '/[^\t\n\r -~]/d' 1.txt > ochishen.txt
остались слова короче 8 символов (из-за возврата каретки) обрабатывай словари сначала этим - tr -d '\r' < 1.dic > bezCR.dic
Я сначала очистил бы от мусора, а только потом клеил и сортировал. Будет гораздо быстрее. В выделенном какая-то ошибка. У меня удаляет все, кроме символов. А если так - sed -n '/^.\{9\}/p' - проверил на txt файлах - оставляет 9 знаков и больше sed -n '/^.\{8\}/p' - соответственно оставляет 8 знаков и >
Программка для очистки словарей от мусора. Писалась только для себя, поэтому возможны недочёты в работе интерфейса. Однако свои обязанности выполняет чётко. Скачать. P.S. Не рекомендую использовать мой парсер для обработки файлов больше 250 MB.
А смысл? Держать в другом словаре 8-значные числа, которые пробиваются отдельным словарём на "раз-два-три"? Кстати, там и так несколько операций есть которые мимоходом удаляют строки короче 8-ми символов.
Если чесно, то трудно в это поверить И как же это понять? Например, тот-же InsidePro, где создавался? Кстати, какая разница, Винда или Линукс, они что, по разному txt создают? Появится время, проверю.
скачал вашу прогу,поставил инсайд про,поставил режим удалить 8значные числа и слова короче 8 символов от него осталось 300 мб с копейками 0_0 получается в инсайд про почти все числа чтоли? или я что то натак делаю?
Цитата wpa2 Дело хозяйское конечно.... Но по моему обработка словарей под виндоуз это мазохизм, как и перехват хендшейков. 1. Словари в виндовой кодировке не подходят для подбора - винда обозначает конец строки спец символом (^M) который все программы подбора воспринимают как еще один символ в строке и соответственно не находят пароли, хотя они и есть в словаре (имея пароль 12345678 в словаре с виндовой кодировкой, на самом деле вы имеете пароль 12345678^M, возможно он вам когда нибудь встретится, но это точно не тот самый распространенный пароль...) 2. Сортировка и удаление повторений в словаре большого объема (1 и более Гб) занятие практически бесполезное - скорее всего программа зависнет, а может и весь комп повесить. Сортировка и удаление повторений моего словаря (3 Гб) занимает минут 10-15 под лиуксом, командой которую я давал выше (проц. 2х ядерный Селерон 2,5 ггц, далеко не i7) 3. Совет - потратьте пол часа, разберитесь как это сделать в линуксе (команду вы уже знаете), сэкономите себе 2 недели мытарств под виндой. copy 'file1.js' + 'file2.js' + 'file3.js' /b 'file.full.js' Если файлов много то можно объединить их все по типу пределах текущего каталога copy '*.js' /b 'file.full.js' Параметр /b нужен для того чтобы файлы объединялись как бинарные, в противном случае в самом конце файла добавляется лишний символ → . Полный список параметров можно посмотреть командой: copy /?
Для начала можно проанализировать словарь, посмотреть статистику. Там видно сколько и каких чисел присутствует в файле. Не рекомендую использовать мой парсер для обработки файлов больше 250 MB. Что касаемо конца строки - кому надо сообразит как сделать из CRLF один LF (или наоборот) за 5 секунд. Хотя бы с помощью AkelPad.