Чем удалять дублиткаты в тхт

Discussion in 'Песочница' started by Demonolog, 21 May 2019.

  1. Demonolog

    Demonolog New Member

    Joined:
    27 Jan 2019
    Messages:
    3
    Likes Received:
    0
    Reputations:
    0
    Пример того что мне нужно:
    1. Есть файл тхт 1
    2. Есть файл тхт 2
    3. Нужно соединить их вместе и проверить на дубликат
    4. На выходе иметь строки которые тхт1 не содержит то есть без дубликатов "уникальные строки"
     
  2. Spinus

    Spinus Level 8

    Joined:
    23 Sep 2018
    Messages:
    499
    Likes Received:
    2,926
    Reputations:
    12
  3. Demonolog

    Demonolog New Member

    Joined:
    27 Jan 2019
    Messages:
    3
    Likes Received:
    0
    Reputations:
    0
  4. erwerr2321

    erwerr2321 Elder - Старейшина

    Joined:
    19 Jun 2015
    Messages:
    4,236
    Likes Received:
    26,249
    Reputations:
    148
    см. в ПМ
     
    Simonoff and Demonolog like this.
  5. Demonolog

    Demonolog New Member

    Joined:
    27 Jan 2019
    Messages:
    3
    Likes Received:
    0
    Reputations:
    0
    Всем спасибо за помощь, помог с ответом на мой вопрос @ms13
     
  6. Simonoff

    Simonoff Member

    Joined:
    29 Jan 2019
    Messages:
    15
    Likes Received:
    18
    Reputations:
    1
    Дико извиняюсь, а можно и мне в личку инфу скинуть? Буду признателен.
     
  7. erwerr2321

    erwerr2321 Elder - Старейшина

    Joined:
    19 Jun 2015
    Messages:
    4,236
    Likes Received:
    26,249
    Reputations:
    148
    Например, тут, да и вообще в данной теме можно найти почти всё по интересующему Вас вопросу.
    Просто используйте форумный сёрч.
     
    hydra, Simonoff and Spinus like this.
  8. s1LenT

    s1LenT Member

    Joined:
    12 Apr 2012
    Messages:
    25
    Likes Received:
    5
    Reputations:
    1
    с помощью excel , openoffice
     
  9. b3

    b3 Banned

    Joined:
    5 Dec 2004
    Messages:
    2,174
    Likes Received:
    1,157
    Reputations:
    202
    cat file1 file2 | sort -u
    так в линуксе
     
    dmax0fw likes this.
  10. fire-dance

    fire-dance Elder - Старейшина

    Joined:
    12 May 2015
    Messages:
    1,000
    Likes Received:
    665
    Reputations:
    12
    Удаляет дубли любого размера, не портит формат
    очень быстро.
    Качаем, разархивируем, создаем файл remove_dubles с расширением .bat
    В файле пишем:
    Код:
    App.Merge.exe o="rez_out.txt" t=4 "rez.txt"
    pause
    rez.txt - файл, в котором мы хотим удалить дубликаты.
    rez_out.txt - файл, который мы получим в итоге.

    Софт с батником я залил, для тех кто в танке батник открывается любым блокнотом: скачать
    Да и не забудьте положить файлы в эту же папку.

    Софт может объединять сразу несколько файлов и после удалять дубли, для этого просто вписываем нужные нам файлы:
    Код:
    App.Merge.exe o="rez_out.txt" t=4 "rez.txt" "rez2.txt" "rez3.txt"
    pause
    rez.txt - файл, в котором мы хотим удалить дубликаты.
    rez2.txt - 2-й файл, в котором мы хотим удалить дубликаты.
    rez3.txt - 3-й файл, в котором мы хотим удалить дубликаты.
    rez_out.txt - общий файл, который мы получим в итоге.

    Также можно прописать различные опции:
    o=[out-file] - Выходной файл.
    t=[threads] - Потоки, используется для ускорения сортировки вверх только.
    c=[mem] - Используется для управления, сколько оперативной памяти для использования в МБ. По умолчанию 1024. блокированного в 3072.
    min=[num] - Минимальная длина слова. По умолчанию = 1
    max=[num] - Максимальная длина слова. По умолчанию = 4096.

    Формат команды:
    App.Merge.exe o="output-file.txt" t=4 [options] ... "word-list1.txt" "word-list2.lst" "directory1" ...

    Для анализа отчета словесного списка:
    App.Merge.exe r = "словарь-list1.txt"

    Двойные кавычки необходимы для имени пути / файлов, которые содержат пробелы. Можно также указать пути к каталогам, если вы хотите объединить / сортировать множество файлов в папках.
    https://yadi.sk/d/LHSo-TQLLPQxqw