Всем привет! Есть ли альтернатива Text Duplicate Killer для линуха? Если кто знает, подскажите,плз. Если в целом о ситуации, ищется "шустро" работающий софт для проверки маил баз на дубли,с последуущим удалением тех самых дублей! P.S. Прошу прощения, если не туда запостил,перенесите,если что
Code: [dmit3y@localhost ~]$ sort --help Использование: sort [КЛЮЧ]... [ФАЙЛ]... или: sort [КЛЮЧ]... --files0-from=Ф Печатает сортированное слияние всех ФАЙЛ(ов) на стандартный вывод. Аргументы, обязательные для длинных ключей, обязательны и для коротких. Ключи, задающие порядок: -b, --ignore-leading-blanks игнорировать начальные пропуски -d, --dictionary-order рассматривать только пропуски, буквы и цифры -f, --ignore-case игнорировать регистр букв -g, --general-numeric-sort сравнивать в соответствии с общим числовым значением -i, --ignore-nonprinting рассматривать только печатные символы -M, --month-sort сравнивать (неизвестно) < JAN < ... < DEC -h, --human-numeric-sort сравнивать числа в удобном для человека виде (например, 2K 1G) -n, --numeric-sort сравнивать числовые значения строк -R, --random-sort сортировать по случайным хэш-числам ключей --random-source=ФАЙЛ брать случайные числа из ФАЙЛА -r, --reverse обратить результаты сравнения --sort=СЛОВО сортировать согласно СЛОВУ: general-numeric -g, human-numeric -h, month -M, numeric -n, random -R, version -V -V, --version-sort сортировать по номерам (версии) в текстовом представлении Другие ключи: --batch-size=NMERGE объединять не более чем NMERGE ввода за раз; для большего использовать временные файлы -c, --check, --check=diagnose-first проверять, сортированы ли входные файлы; не сортировать -C, --check=quiet, --check=silent как -c, но не сообщать о первой плохой строке --compress-program=ПРОГ сжимать временные файлы командой ПРОГ; разжимать командой ПРОГ -d --debug комментировать часть строки, используемой для сортировки и предупреждать о сомнительном использовании в stderr --files0-from=Ф читать ввод из файлов, имена которых (завершённые нулем) перечислены в файле Ф. Если Ф равно -, то читать имена файлов из стандартного ввода -k, --key=ПОЗ1[,ПОЗ2] начинать ключ в ПОЗ1 (отсчёт от 1) и завершать на ПОЗ2 (по умолчанию конец строки). Синтаксис ПОЗИЦИИ см. далее -m, --merge объединить уже сортированные файлы, не сортировать -o, --output=ФАЙЛ выводить в ФАЙЛ, а не на стандартный вывод -s, --stable стабилизировать сортировку, исключив проверку на равенство -S, --buffer-size=РАЗМЕР использовать в основной памяти буфер указанного РАЗМЕРА -t, --field-separator=РАЗДЕЛИТЕЛЬ использовать при поиске ключевых полей РАЗДЕЛИТЕЛЬ, а не переход от непробельных символов к пробельным -T, --temporary-directory=КАТАЛОГ использовать для временных файлов КАТАЛОГ, а не $TMPDIR или /tmp; несколько таких ключей задают несколько каталогов --parallel=N изменить количество одновременно запущенных сортировок до N -u, --unique с -c, проверять порядок строго; без -c, выводить только первое среди нескольких равных -z, --zero-terminated завершать строки нулевым байтом, а не новой строкой --help показать эту справку и выйти --version показать информацию о версии и выйти ПОЗ задается как П[.З][КЛЮЧ], где П -- номер поля, а З -- позиция символа в этом поле, оба отсчитываются от 1. Если не заданы ключи -t или -b, символы в поле отсчитываются от начала предшествующих пробельных символов. КЛЮЧ составляется из одной или нескольких букв, задающих порядок сортировки; он отменяет соответствующие глобальные ключи для данного ключевого поля. Если ключевое поле не задано, в качестве ключа используется строка целиком. После РАЗМЕРА можно писать следующие суффиксы-мультипликаторы: % 1% памяти, b 1, k 1024 (по умолчанию), и так далее для M, G, T, P, E, Z, Y. Если ФАЙЛ не задан или задан как -, читает стандартный ввод. *** ПРЕДУПРЕЖДЕНИЕ *** Установленная в окружении локаль влияет на порядок сортировки. Чтобы получить традиционный порядок, использующий системные значения байт, установите LC_ALL=C. Об ошибках в sort сообщайте по адресу [email protected]. Домашняя страница GNU coreutils: <http://www.gnu.org/software/coreutils/> Справка по работе с программами GNU: <http://www.gnu.org/gethelp/> Об ошибках в переводе sort сообщений по адресу <[email protected]> Полная документация доступна по команде: info coreutils 'sort invocation' [dmit3y@localhost ~]$ uniq --help Использование: uniq [КЛЮЧ]... [ВХОД [ВЫХОД]] Фильтрует совпавшие строки из ВХОДА (или стандартного ввод), записывая их в ВЫХОД (или стандартный вывод). Без ключей совпавшие строки объединяются с первым появлением. Аргументы, обязательные для длинных ключей, обязательны и для коротких. -c, --count выводить число повторов в начале каждой строки -d, --repeated выводить только повторяющиеся строки -D, --all-repeated[=delimit-method] напечатать все повторяющиеся строки delimit-method={none(по умолчанию),prepend,separate)} Разделение делается пустыми строками. -f, --skip-fields=Н не сравнивать первые Н полей -i, --ignore-case игнорировать регистр при сравнении -s, --skip-chars=Н не сравнивать первые Н символов -u, --unique выводить только неповторяющиеся строки -z, --zero-terminated строки оканчиваются байтом с 0, а не символом новой строки -w, --check-chars=Н сравнивать первые Н символов строк --help показать эту справку и выйти --version показать информацию о версии и выйти Полем считается последовательность пробельных символов (обычно, пробелы и/или TAB), за которой следуют непробельные символы. Сначала пропускаются поля, потом символы. Замечание: uniq не обнаруживает повторяющиеся строки, если они не смежные. Вы можете сначала выполнить сортировку, или использовать «sort -u» без uniq. Также, при сравнении учитываются правила задаваемые LC_COLLATE. Об ошибках в uniq сообщайте по адресу [email protected]. Домашняя страница GNU coreutils: <http://www.gnu.org/software/coreutils/> Справка по работе с программами GNU: <http://www.gnu.org/gethelp/> Об ошибках в переводе uniq сообщений по адресу <[email protected]> Полная документация доступна по команде: info coreutils 'uniq invocation' [dmit3y@localhost ~]$ Использование: Code: [dmit3y@localhost tmp]$ sort test.txt | uniq EDIT: Можно еще просто sort -u test.txt в файле test.txt список того что нужно отфильтровать.