Делаем «Бронебойный» словарь из морфемного словаря Тихонова А. Н.

Discussion in 'Криптография, расшифровка хешей' started by jnpe, 7 Mar 2011.

  1. jnpe

    jnpe Banned

    Joined:
    10 Dec 2010
    Messages:
    157
    Likes Received:
    42
    Reputations:
    19
    Делаем «Бронебойный» словарь из морфемного словаря Тихонова А. Н.
    1. Идем в гугл и спрашиваем «шо таке морфологический словарь?»
    2. Идем на сайт http://slovari.yandex.ru/~%D0%BA%D0%BD%D0%B8%D0%B3%D0%B8/%D0%9C%D0%BE%D1%80%D1%84%D0%B5%D0%BC%D0%BD%D0%BE-%D0%BE%D1%80%D1%84%D0%BE%D0%B3%D1%80%D0%B0%D1%84%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9%20%D1%81%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C/
    и копируем все слова и словосочетания в текстовик.
    3. Открываем текстовик через ексель, ставим разделителем «/» без кавычек.
    4. Ставим автофильтр, фильтруем по «*» и удаляем все отфильтрованное. Выравниваем по левой колонке. Удаляем все спец символы и цифры.
    5. Создаем новый ескель-документ и копируем в его колонку А только первую колонку старого. В колонке В ставим формулу =ЗАМЕНИТЬ(A1;5;20;) И РАСТЯГИВАЕМ ПО всей длине колонки
    Остаются только первые 4-ре символа всех слов. Копируем их в текстовик, удаляем дубли. (это будет наш первый множитель). Чистим его от неиспользуемых и редко используемых слов, приставок и вообще любых начал слов, в нем будет около 16000 строк, работоспособный вариант – сократить до 5-10 тыс. В итоге имеем актуальный словарь всех начал кириллицы!!!
    6. копируем первый и все остальные столбцы по очереди в другой ескель-документ в одну его колонку А (каждую колонку старого екселя копируем- добавляем только в первую колонку нового)..
    В колонке В ставим формулу =ЗАМЕНИТЬ(A1;1;4;)
    В колонке С ставим формулу =ЗАМЕНИТЬ(B1;1;4;)
    ………………………………….
    В колонке G ставим формулу =ЗАМЕНИТЬ(F1;1;4;)

    Получившееся чудо сохраняем тут же в текстовик. (у меня AkelPad), делаем поиск/замену знаков табуляции на знак переноса строки. Удаляем дубли. Думаем, долго и хорошо думаем что из него можно удалить, я – ничего не стал, плюнул, хотелось сначала довести до конца идею.

    После всех операций у вас будет словарь состоящий из всех читаемых и получитаемых частей, частиц, слогов, приставок, суффиксов и пр. и пр. слов русского языка из которых можно составить любое слово(можете попрактиковаться)

    Финиш – перекидываем словарь в английскую раскладку, перемножаем первый со вторым, получившийся ещё раз со вторым – заимеем много хороших и не очень до и 12-ти значных слов. Вес словаря – 70 Гб. Если перемножить ещё раз – будет просто «16-ти значная конфетка» всех слов которые вы только сможете придумать и выговорить. (правда весить будет ололо 10Тб =) … а сколько займет словарь всех 16-ти значных комбинаций?

    Инструмент для перемножения: https://hashcracking.ru/forum/viewtopic.php?f=6&t=1004 где то тут =)

    P.S. удачной охоты
     
    2 people like this.
  2. cel1697i845

    cel1697i845 Elder - Старейшина

    Joined:
    22 Nov 2008
    Messages:
    618
    Likes Received:
    396
    Reputations:
    80
    Хотелось бы узнать пробив такого словаря, т.к. размер мало что дает.
    P.S. Помню, когда начинал этим делом заниматься, сделал себе словарь 57 Гб, так по нахождению паролей он уступал словарю в чуть более 11 МБ.
     
  3. jnpe

    jnpe Banned

    Joined:
    10 Dec 2010
    Messages:
    157
    Likes Received:
    42
    Reputations:
    19
    "пробив" - самое непредсказуемое слово

    такого "urquiza2010" слова в нем нету,
    такое "santkabirnaga" - есть
     
    #3 jnpe, 7 Mar 2011
    Last edited: 7 Mar 2011
  4. Mayor16

    Mayor16 Member

    Joined:
    23 Oct 2010
    Messages:
    107
    Likes Received:
    24
    Reputations:
    6
    Не могли бы вы норм сцылку кинуть - у меня Яндекс ругается)
     
  5. jnpe

    jnpe Banned

    Joined:
    10 Dec 2010
    Messages:
    157
    Likes Received:
    42
    Reputations:
    19


    гугл:
    Яндекс Морфемно-орфографический словарь А. Н. Тихонова
     
  6. Mayor16

    Mayor16 Member

    Joined:
    23 Oct 2010
    Messages:
    107
    Likes Received:
    24
    Reputations:
    6
    Может ТХТ-шку выложишь?) Как то мне не очень хочется 93к слов собирать по куче страниц...
     
  7. -=lebed=-

    -=lebed=- хэшкрякер

    Joined:
    21 Jun 2006
    Messages:
    3,804
    Likes Received:
    1,960
    Reputations:
    594
    Из реалпассов надо собирать минисловари, а не из Тихонова, имхо...
    Тихонов А. Н.Морфемно-орфографический словарь: Около 100 000 слов / А. Н. Тихонов. — М.: ООО "Издательство АСТ": ООО "Издательство Астрель", 2002. — 704 с. против словаря реалпассов от 1млн.
    P.S. Вопчем идея имеет право на жизнь для русских паролей, набранных в английской раскладке, но размер полученного словаря при этом нехилый...учитывая что таких паролей менее 5-10%, имхо.