Как удалить дубли с двух больших txt файлов

Discussion in 'Болталка' started by SeoSky, 11 May 2018.

  1. SeoSky

    SeoSky Member

    Joined:
    8 Oct 2015
    Messages:
    97
    Likes Received:
    7
    Reputations:
    0
    Привет, нужно удалить строки с "файла 1.тхт", которые содержатся в "файле 2.тхт" и записать результат в "файл3.тхт", раньше использовал "udolyator by inoy" с форума, но когда есть два файла по 500 000 строк и больше - он зависает просто на определенном моменте... Пробовал keywordkeeper - вообще не реагирует. Как можно сделать это на windows или android? Возможно есть у кого программа?

    Содержание файла приблизительно такое:
    56214586
    1485224
    658452846
    4782221
    ....
     
  2. devton

    devton Elder - Старейшина

    Joined:
    26 Oct 2007
    Messages:
    3,372
    Likes Received:
    5,124
    Reputations:
    48
    слить в один файл, отсортировать, удалить все которые подряд больше одного
     
    SeoSky likes this.
  3. SeoSky

    SeoSky Member

    Joined:
    8 Oct 2015
    Messages:
    97
    Likes Received:
    7
    Reputations:
    0
    Так немного не подходит, так как на выходе нужен файл без дублей которые есть в другом файле...)
     
  4. devton

    devton Elder - Старейшина

    Joined:
    26 Oct 2007
    Messages:
    3,372
    Likes Received:
    5,124
    Reputations:
    48
     
    SeoSky likes this.
  5. SeoSky

    SeoSky Member

    Joined:
    8 Oct 2015
    Messages:
    97
    Likes Received:
    7
    Reputations:
    0
    понял, спасибо :) только все равно в файле останутся уникальные строки с файла, которые мне не нужны в конечном результате :)

    Если у кого есть более простые варианты - жду :)
     
  6. devton

    devton Elder - Старейшина

    Joined:
    26 Oct 2007
    Messages:
    3,372
    Likes Received:
    5,124
    Reputations:
    48
    проще нет - просто найди удалялку дублей которая так умеет
    или пиши 5 строк кода сам
     
  7. SeoSky

    SeoSky Member

    Joined:
    8 Oct 2015
    Messages:
    97
    Likes Received:
    7
    Reputations:
    0
    udolyator by inoy - умеет, но при больших файлах от 250 000 строк зависает...) С программированием я на Вы :D
     
    1n0y likes this.
  8. devton

    devton Elder - Старейшина

    Joined:
    26 Oct 2007
    Messages:
    3,372
    Likes Received:
    5,124
    Reputations:
    48
    эксель
     
  9. devton

    devton Elder - Старейшина

    Joined:
    26 Oct 2007
    Messages:
    3,372
    Likes Received:
    5,124
    Reputations:
    48
    да и какие проблемы ваще:
    1)сливаешь 2 файла в один
    2)сортируешь обычной тулзой без удаления
    3)режешь на куски по 240000
    4)каждый обрабатываешь своей тулзой удаляющей все дубликаты
    5)сливаешь в 1 файл

    если не умеешь кодить страдай, хуле ))))
     
    SeoSky likes this.
  10. SeoSky

    SeoSky Member

    Joined:
    8 Oct 2015
    Messages:
    97
    Likes Received:
    7
    Reputations:
    0
    эхх... сложно, файлов много часто приходится такие операции делать )
     
  11. FaS

    FaS Elder - Старейшина

    Joined:
    3 Aug 2008
    Messages:
    60
    Likes Received:
    145
    Reputations:
    22
    Я юзаю http://vizbe.net/myprogram.html#bvsTextCombi
    Хорошо справляется с максимум крупными файлами.
    Выбираешь вкладку CrossOut, там все поймешь.
     
  12. Veil

    Veil Banned

    Joined:
    21 May 2015
    Messages:
    2,025
    Likes Received:
    3,355
    Reputations:
    72
    Эту тему на античате уже жевали и не один раз. https://forum.antichat.ru/search/41548779/?q=Как+удалить+дубли&o=relevance
     
  13. devton

    devton Elder - Старейшина

    Joined:
    26 Oct 2007
    Messages:
    3,372
    Likes Received:
    5,124
    Reputations:
    48
  14. Djaxon

    Djaxon New Member

    Joined:
    31 Mar 2018
    Messages:
    12
    Likes Received:
    2
    Reputations:
    0
    keywrodkeeper прекрасно справляется с тхт по 3-5КК это тебе кажется что он не реагирует, ну или возьми Text Utilities by Guron
     
  15. erwerr2321

    erwerr2321 Elder - Старейшина

    Joined:
    19 Jun 2015
    Messages:
    4,236
    Likes Received:
    26,249
    Reputations:
    148
    comm -13 file2.txt file1.txt > result.txt
    в result.txt останутся уникальные строки из file1.txt, но перед этим оба нужно прогнать sort -u
     
    Veil likes this.
  16. 1n0y

    1n0y Active Member

    Joined:
    9 May 2009
    Messages:
    276
    Likes Received:
    282
    Reputations:
    2
    вот тут я зауважал сам себя
     
    erwerr2321 likes this.