Например, так: Code: while IFS=$'\n' read -r a; do while IFS=$'\n' read -r b; do echo $a$b; done < dic1.txt; done < dic2.txt > combined.txt Словари должны заканчиваться символом переноса строки. Для словарей с \r\n в конце строчек заменить $'\n' на $'\r\n'
Ага я так и думал, уже начала FOR ковырять но смотрю чот не пашет, попробую через WHILE. Спасибо ! Всё заработало! для полного шоколада можно потом еще sort'om проехатся.
но скорость, во много раз ниже 6gb - не меньше часу придется ждать, а комбинатор пару минут делает...
Большое спасибо за программу! Работает очень хорошо! (Кстати, может создать по ней отдельную тему?) Заметил одну непонятку в работе. Когда чистил InsidePro 1-31 FULL словари из этого сообщения, то несколько файлов, после удаления определённого количества строк, почему то увеличились в размере на несколько процентов. Похоже на некорректную работу алгоритма. Ну и ещё заметно, что производительность упирается в процессор - работает только одно ядро, а при включенном hyper-threading так и вообще пол ядра
Чувачки может кто сможет помочь словарик на 347 Гб почистить там 6 частей по 64 ГБ их надо объяденить отсортировать удалить повторы и 8-64 символа? сожму в 7z отправлю как угодно куда угодно Нет времени этим заниматься(( если все сразу обрабатывать временых файлов 800-850 Гб создается +300-350 Гб надо чтоб сохранить словарь этой командой делал: cat 1.dic | sort | uniq | pw-inspector -m 8 -M 64 > 2SortWPAd.dic
ну можеть у кого есть свободная система)) вдруг кто отзавется а то я хз когда смогу этим заняться... времени нет:-( ноутбук нужен для других дел
у меня есть комп с PIV 3 ГГЦ он в бубен долбить там 100500 млн лет будет)) i5 460M - 3,5 дня такой словарь обрабатывает
======================== он очищен зря замарачиваешься - отсортирован 0-9 A-Z - удалены повторы строк - удалены строки меньше 8 символов - удалил краказябры ======================== Не удалил Вида rfdgdtd544@mail вид имейл удалять не стал потому что никторые любители ставят пароли вида M@A@F@[email protected]
Никто не вкурсе как быстро отсортировать большой словарь около 250гиг ? Что я хочу удалить строки из большого словаря которые дублируются в моем основном словаре 17гиг. Для этого нужно выполнить команду (предварительно отсортировав словари): comm -31 dic1.lst dic2.lst > out.lst ### вывести уникальные строки файла 2 join -v2 dic1.lst dic2.lst > out.lst ### печатать не имеющие пары строки из файла НОМЕР 2 или "-v1" - файла 1 командой LC_ALL=C sort dic.lst > dicout.lst сортирует очень быстро в 4-5раз быстрее(хотя заметил что немного другая сортировка) чем просто sort dic.lst > dicout.lst и comm или join почему-то ругаются данные файла 1 не отсортированы. может какой-то параметр добавить после LC_ALL=C sort ???
Если вы sort запускаете с переменной LC_ALL=C , то и остальное нужно запускать так же. Либо отдельной командой: export LC_ALL=C
все верно в начале comm -31 dic1.lst dic2.lst > out.lst тоже нужно добавить LC_ALL=C теперь за день все это можно обработать, а так бы ушла наверно неделя))
Подскажите граббер слов текста.. Вот к примеру есть граббер прокс добавляешь ссылки и он сливает все прокси... А мне нужно к примеру сграбить с гугле все логины ники .. которые найдет. к примеру задал запрос vova и она ищет по этому запросу все ники логины в ссылках, тексте на сайте в которых есть эти 4 буквы vova.
Всем добрый вечер) Подскажите пожалуйта хороший способ удаления дубликатов с текстовых файлов) Спасибо