Аналог Text Duplicate Killer нужен!

Discussion in 'Linux, Freebsd, *nix' started by Amon Ra, 11 Jun 2012.

  1. Amon Ra

    Amon Ra New Member

    Joined:
    4 Jun 2012
    Messages:
    0
    Likes Received:
    0
    Reputations:
    0
    Всем привет! Есть ли альтернатива Text Duplicate Killer для линуха? Если кто знает, подскажите,плз. Если в целом о ситуации, ищется "шустро" работающий софт для проверки маил баз на дубли,с последуущим удалением тех самых дублей!

    P.S. Прошу прощения, если не туда запостил,перенесите,если что
     
  2. Dmit3Y

    Dmit3Y Member

    Joined:
    19 Jul 2010
    Messages:
    45
    Likes Received:
    8
    Reputations:
    0
    Code:
    [dmit3y@localhost ~]$ sort --help
    Использование: sort [КЛЮЧ]... [ФАЙЛ]...
           или:    sort [КЛЮЧ]... --files0-from=Ф
    Печатает сортированное слияние всех ФАЙЛ(ов) на стандартный вывод.
    
    Аргументы, обязательные для длинных ключей, обязательны и для коротких.
    Ключи, задающие порядок:
    
      -b, --ignore-leading-blanks игнорировать начальные пропуски
      -d, --dictionary-order      рассматривать только пропуски, буквы и цифры
      -f, --ignore-case           игнорировать регистр букв
      -g, --general-numeric-sort  сравнивать в соответствии с общим числовым
                                  значением
      -i, --ignore-nonprinting    рассматривать только печатные символы
      -M, --month-sort            сравнивать (неизвестно) < JAN < ... < DEC
      -h, --human-numeric-sort    сравнивать числа в удобном для человека виде
                                  (например, 2K 1G)
      -n, --numeric-sort          сравнивать числовые значения строк
      -R, --random-sort           сортировать по случайным хэш-числам ключей
          --random-source=ФАЙЛ    брать случайные числа из ФАЙЛА
      -r, --reverse               обратить результаты сравнения
          --sort=СЛОВО            сортировать согласно СЛОВУ:
                                    general-numeric -g, human-numeric -h, month -M,
                                    numeric -n, random -R, version -V
      -V, --version-sort          сортировать по номерам (версии) в текстовом
                                  представлении
    Другие ключи:
    
          --batch-size=NMERGE     объединять не более чем NMERGE ввода за раз;
                                  для большего использовать временные файлы
      -c, --check, --check=diagnose-first
                                   проверять, сортированы ли входные файлы;
                                   не сортировать
      -C, --check=quiet, --check=silent
                                   как -c, но не сообщать о первой плохой строке
          --compress-program=ПРОГ  сжимать временные файлы командой ПРОГ;
                                   разжимать командой ПРОГ -d
          --debug                  комментировать часть строки, используемой для
                                   сортировки и предупреждать о сомнительном
                                   использовании в stderr
          --files0-from=Ф          читать ввод из файлов, имена которых
                                    (завершённые нулем) перечислены в файле Ф.
                                   Если Ф равно -, то читать имена файлов из
                                   стандартного ввода
      -k, --key=ПОЗ1[,ПОЗ2]
                                   начинать ключ в ПОЗ1 (отсчёт от 1) и завершать на
                                   ПОЗ2 (по умолчанию конец строки).
                                   Синтаксис ПОЗИЦИИ см. далее
      -m, --merge                  объединить уже сортированные файлы,
                                   не сортировать
      -o, --output=ФАЙЛ            выводить в ФАЙЛ, а не на стандартный вывод
      -s, --stable                 стабилизировать сортировку, исключив проверку
                                   на равенство
      -S, --buffer-size=РАЗМЕР
                                   использовать в основной памяти буфер указанного
                                   РАЗМЕРА
      -t, --field-separator=РАЗДЕЛИТЕЛЬ
                                   использовать при поиске ключевых полей
                                   РАЗДЕЛИТЕЛЬ, а не переход от непробельных
                                   символов к пробельным
      -T, --temporary-directory=КАТАЛОГ
                                   использовать для временных файлов КАТАЛОГ, а
                                   не $TMPDIR или /tmp; несколько таких ключей
                                   задают несколько каталогов
          --parallel=N             изменить количество одновременно запущенных
                                   сортировок до N
      -u, --unique                 с -c, проверять порядок строго;
                                   без -c, выводить только первое среди нескольких
                                   равных
      -z, --zero-terminated        завершать строки нулевым байтом, а не новой
                                   строкой
          --help     показать эту справку и выйти
          --version  показать информацию о версии и выйти
    
    
    ПОЗ задается как П[.З][КЛЮЧ], где П -- номер поля, а З -- позиция
    символа в этом поле, оба отсчитываются от 1.  Если не заданы ключи -t
    или -b, символы в поле отсчитываются от начала предшествующих пробельных
    символов. КЛЮЧ составляется из одной или нескольких букв, задающих
    порядок сортировки; он отменяет соответствующие глобальные ключи для
    данного ключевого поля. Если ключевое поле не задано, в качестве
    ключа используется строка целиком.
    
    После РАЗМЕРА можно писать следующие суффиксы-мультипликаторы:
    % 1% памяти, b 1, k 1024 (по умолчанию), и так далее для M, G, T, P, E, Z, Y.
    
    Если ФАЙЛ не задан или задан как -, читает стандартный ввод.
    
    *** ПРЕДУПРЕЖДЕНИЕ ***
    Установленная в окружении локаль влияет на порядок сортировки.
    Чтобы получить традиционный порядок, использующий системные значения байт,
    установите LC_ALL=C.
    
    Об ошибках в sort сообщайте по адресу [email protected].
    Домашняя страница GNU coreutils: <http://www.gnu.org/software/coreutils/>
    Справка по работе с программами GNU: <http://www.gnu.org/gethelp/>
    Об ошибках в переводе sort сообщений по адресу <[email protected]>
    Полная документация доступна по команде: info coreutils 'sort invocation'
    [dmit3y@localhost ~]$ uniq --help
    Использование: uniq [КЛЮЧ]... [ВХОД [ВЫХОД]]
    Фильтрует совпавшие строки из ВХОДА (или стандартного ввод),
    записывая их в ВЫХОД (или стандартный вывод).
    
    Без ключей совпавшие строки объединяются с первым появлением.
    
    Аргументы, обязательные для длинных ключей, обязательны и для коротких.
      -c, --count           выводить число повторов в начале каждой строки
      -d, --repeated        выводить только повторяющиеся строки
      -D, --all-repeated[=delimit-method]
                            напечатать все повторяющиеся строки
                            delimit-method={none(по умолчанию),prepend,separate)}
                            Разделение делается пустыми строками.
      -f, --skip-fields=Н   не сравнивать первые Н полей
      -i, --ignore-case     игнорировать регистр при сравнении
      -s, --skip-chars=Н    не сравнивать первые Н символов
      -u, --unique          выводить только неповторяющиеся строки
      -z, --zero-terminated строки оканчиваются байтом с 0, а не символом
                            новой строки
      -w, --check-chars=Н   сравнивать первые Н символов строк
          --help     показать эту справку и выйти
          --version  показать информацию о версии и выйти
    
    
    Полем считается последовательность пробельных символов (обычно, пробелы
    и/или TAB), за которой следуют непробельные символы. Сначала пропускаются
    поля, потом символы.
    
    Замечание: uniq не обнаруживает повторяющиеся строки, если они не смежные.
    Вы можете сначала выполнить сортировку, или использовать «sort -u» без uniq.
    Также, при сравнении учитываются правила задаваемые LC_COLLATE.
    
    Об ошибках в uniq сообщайте по адресу [email protected].
    Домашняя страница GNU coreutils: <http://www.gnu.org/software/coreutils/>
    Справка по работе с программами GNU: <http://www.gnu.org/gethelp/>
    Об ошибках в переводе uniq сообщений по адресу <[email protected]>
    Полная документация доступна по команде: info coreutils 'uniq invocation'
    [dmit3y@localhost ~]$ 
    
    Использование:
    Code:
    [dmit3y@localhost tmp]$ sort test.txt | uniq
    EDIT: Можно еще просто sort -u test.txt
    в файле test.txt список того что нужно отфильтровать.
     
    #2 Dmit3Y, 11 Jun 2012
    Last edited: 11 Jun 2012
  3. Amon Ra

    Amon Ra New Member

    Joined:
    4 Jun 2012
    Messages:
    0
    Likes Received:
    0
    Reputations:
    0
    to Dmit3Y, спасибо,щас испытаем :)