Спасибо за програму. Есть замечание . Плохо ищет строки md5 из сотен хэшей находит один. наверное первый.
Так попробуй их парсить: sed -n '/[a-fA-F0-9]\{32\}$/p' Будет находить md5 хэши и пары login:hash Подойдёт и для sha1 32 испрвь на 40
исправил и перезалил на форум по ссылке...ошибка касалась одного из потоков в целом для нескольких функций, недоглядел когда экспериментировал...спасибо за подсказку
там не в регулярке было дело, а в формировании конечного результата перед записью в файл для десятка функций..но думаю кому-то пригодится и ваша подсказка))
спасибо за программу - можете подсказать в старой версии была функция удалить строки меньше 8 - в новой программе эта функция вроде есть но не удалят их остаётся всё на месте
Возможности хороши, но я так понимаю программа насильно меняет кодировку, т.к. выходной файл получается больше по размеру. Не нравится также то, что делится файл на части перед обработкой, что занимает дополнительное дисковое пространство, а оно при больших объёмах словарей весьма ценно. А удалить как? Ещё интересует объединение с этими командами - sed '/^[0-9]\{1,9\}$/ d' file > file2 и sed -r "s/([A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4})//g" file > file2 или grep -E -o "\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,6}\b" Т.е. удаление цифровых строк из опредеелённого кол-ва символов и удаление email, подскажете?
в основном, после обработки, на выходе - кирилица...иногда в нек случаях утф8, пока так... если загружаемый файл более 104 мб, то его разбивает на части...опытным путем выяснилось, что во многом это является оптимальным размером для обработки файла, как по скорости, так и по занимаемой оперативы и ресурсов в целом... удаление строк, которые содержат цифры, а так-же удаление эмейл, всё это есть в проге: Удалить- Цифры-по всему тексту и Удалить-Разное-эмейл
Функции- Удалить -Строки -Задать минимальную длину строк....укажите 8 и все строки менее восьми символов будут удалены, в том числе и пробелы между строк
Да, про это в курсе, конечно, интересовался sed grep командами, т.к. при такой обработке не создаются разбивочные файлы. (по крайней мере при операциях удаления цифр, мыл)
можно ещё добавить функцию в программе удалить пробелы в начале строк - между строк - и в конце строк - имею виду всё объединить в одно - чтоб сразу всё удаляла всё в одном
спасибо - ещё можно добавить функцию одну - там есть функция удалить русский текст - можно ещё добавить удалить английский текст
а можно ещё добавить удалить пробелы в начале и в конце строк - чтоб удаляла сразу и в начале и в конце строк - ну не между строк именно если не трудно сможете добавить эту функцию
если можно то можно ещё добавить вот эти функции - удалить не английские слова - как во в этой программе
также вот скину документ сортировал уже -- там есть не английские слова - в самом начале и конце документа http://zalil.su/2274120
именно удалить не английские слова - сылку словаря где именно находятся иероглифы в начале и конце дал - текстовый документ