Собираем МЕГА СЛОВАРЬ Многим известно, что словари русских слов занимают на два порядка меньшие объемы дискового пространства, чем английские. Собранный мною с кучи поисковиков мегасловарь русских слов занимает всего 3.5 Мб, в то время как английский аж целых 154 Всвязи с чем возникло желание расширить объем диского пространства под русский словарь. А как собственно собирают словари? Неужели кто-то сидит вручную набирает? Имхо вряд ли. Вот что сделать гораздо проще. Берем всем знаменитую Войну и Мир. Сколько там страниц? Правильно, полторы тысячи, помножим на 2 кб/страница и уже 3 Мб неочищенного контента. А много в нашей великой русской литературе больших произведений? Достаточно! Вот собссно предложение. Постим тут, какие знаем произведения русской литературы, да чтобы в них побольше было страниц, ну от 500 там например. Если еще с линками на архивенный текстовый файл с произведением, то получите больший жирный плюс. Тему не засоряем, каждый постит в одном сообщении. Потом я все это скачаю, пропарсю русские слова, и создам на общее благо новый словарик русских слов. Чем ответственней вы отнесетесь к данному предложению, тем соответственно больше будет вероятность, что хеши, которые вы постите десятками в день, будут расшифрованы. Ну просто русских слов намного меньше встречается среди раздраконенных паролей, еще и потому что словари у нас маленькие Засим кончаю повествование и жду ваших постов Собссно Война и Мир уже есть: http://www.war-and-piece.org/all.zip Тихий Дон http://thelib.ru/books/sholohov_mihail/tihiy_don_knigi_12-read.html Преступление и наказание http://lib.km.ru/?id=1394 ************ Отсюда можно брать линки ************ http://lib.km.ru/ http://kaliningrad.vip.km.ru/ http://www.fictionbook.ru/rue/ http://bookz.ru/ Не заливайте на Рапиду !!!
Практически вся литература есть на http://lib.ru (правда не архивированная), в частности классика - http://az.lib.ru/ Белинский В.Г.(13766k) Гоголь Н.В.(7149k) Гончаров И.А.(8375k) Достоевский Ф.М.(24237k) Толстой Л.Н.(45292k) Тургенев И.С.(7948k) ну и т.д.
************************************************************************* Авторов ооочень много, произведений на несколько порядков больше. Сливать всех и все - непосильный труд То, что вы пишите авторов, конечно, хорошо, но произведений у них тьма, и маленькие, и не очень. Так вот, если вы знаете конкретно произведения, а не просто русских писателей, то пишите Желательно побольше чтобы было страниц в произведении. Не буду говорить никакие ограничения по количеству страниц, но просто подумайте сами, если там например ну страниц 100, то нужно ли брать это произведение (которых тысячи), или взять те, которых хоть и мало, но которые реально большие (от 500 и более например) Можно конечно сидеть и одному придумывать, какие же произведения есть, но это не интересно: долго, во-первых, а во-вторых, наверняка один человек не знает или не вспомнит кучу произведений, а которых вспомнят другие Вспоминайте все, что на русском есть. Может Гарри Поттер на русском в электронном виде есть где, дерзайте, креатив рулит! И по возможности линки бы тоже сразу, ведь каждому 2-3 произведения найти гораздо легче, чем потому одному или нескольким искать тонну литературы Имхо можно насобирать очень неплохой словарь, было бы желание не только у меня *************************************************************************
http://ihtik.2x4.ru/encycloped_8janv2007/encycloped_8janv2007_570.rar крохотный текст, но слова специализированные, могут пригодится http://ihtik.2x4.ru/encycloped_8janv2007/encycloped_8janv2007_639.rar Битвы мировой истории. Словарь.txt 1,02 MB http://rapidshare.com/files/24957892/AdvLam.rar.html аривчик со всеми рус. фамилиями и городами/деревнями. Фамилии отредактировал и отсортировал (Surname)
Стивен Кинг - 10 метров, разные романы Стивена Кинга Сборка - 5 метров, здесь: Агата Кристи, Властелин колец, Три мушкетера, Монте-Кристо
_http://traduko.lib.ru/ru_ru_bse.html хз что там проверьте, мне на своем момеде неделю придется качать!
не мучайтесь Толковый словарь Даля - Размер: 58MB Словарь живого великорусского языка В. И. Даля безусловно самый знаменитый русский толковый словарь. До сегодняшнего дня, несмотря на существование словарей-предшественников, диалектных, диахронических, жаргонных словарей, многотомных современных лексикографических описаний, время от времени оказывается, что Далев Словарь отражает русский язык точнее или полнее. Это собрание русской лексики, относящейся, по преимуществу, к диалектам и профессиональным жаргонам, составленное дилетантом-самоучкой, который неоднократно призывал писать как говорим, не проповедовать грамоты как спасения, не приносить никаких жертв для всеобщего водворения ее (С.-Петербургские ведомости, 1857, № 245), который ратовал за полное избавление русского языка от иноязычных заимствований. Энциклопедический словарь Ф.Брокгауз и И.Ефрон - Размер: 13MB В данном словаре материал излагается в соответствии с правилами орфографии и стилистики современного русского языка.В словаре представлено более 20000 статей. Значительное место отведено биографиям выдающихся деятелей истории, искусства, науки, а также материалам по истории, философии, социологии, этнографии, религии, искусству, языкознанию. Так же в словаре представлены сведения из области физической и социально-экономической географии, геологии, техники, математики, физики, химии, биологии, медицины. Основу словаря составляют статьи, относящиеся к области гуманитарных наук. Некоторые статьи проиллюстрированы, значительную часть иллюстраций составляет портретная галерея наиболее знаменитых и выдающихся российских и зарубежных деятелей. + словарь терминов на 80000 статей. Орфографический словарь русского языка - Размер: 14,45MB Орфографический словарь русского языка, содержит 90000 слов
Бета версия словаря: осталось еще пропарсить один большой файл, который почему то на ~100 байте вылетает с условием feof(in), когда сам файл 371 Мб Если будут еще линки - размер будет расти, а пока что ****************************************************** http://advlamer.narod.ru/dict/advlamer-words-russian.rar Size: 16.15 Mb Contain: 1548355 words ****************************************************** Для сравнения, старый был Size: 3.50 Mb Contain: 353052 words Итого, количество слов увеличилось в 4.38 раз
я тут как то уже собирал русский словарик на 25 мегов обрабатывал 2 CD "электронная библиотека в кармане" offline форумы слов вышло 2,2 мульта но там не все слова русские есть и такие ———— ————— —————— ——————— ———————— ————————— * ¤® * ¤®«Ј® ¤®¬ * ¤®аўҐим * ¤®Ґ« * ¤®Ґ¤ Ґв [авторов [Авторское [автору] [Авторы [Автохтоны [Агамемнон [Агасфер [агатоерг [агела _в_ы_х_о_д_а_ _в_ы_х_о_д_и_т_ _в_ы_х_о_д_и_т_ь _в_ы_ч_и_с_л_и_т_ _в_ы_ч_и_с_л_я_т_ь_ просто все тексты на CD были в dos потом ещё слова цена и ЦЕНА разные у меня считаються http://webfile.ru/1371528 password:dda
DDA: почистил твой файл. было 2283520 слов. стало 1835820 слов. регистр нижний, повторов нет. http://webfile.ru/1372443 password: DDA
Обработал то, что выложил DDA, разобрался с файлом в 370 мегов, плюс добавил еще слова из доброго десятка тысяч текстовых файлов ****************************************************** http://advlamer.narod.ru/dict/advlamer-words-russian1.rar http://advlamer.narod.ru/dict/advlamer-words-russian2.rar Size: 31 Mb Contain: 2.892.931 words ****************************************************** Итог Все приведенные на данный момент линки слиты Очень жаль, что активности было немного, но все же какие-то результаты есть Теперь посты, которые были до текущего, не редактируем, а постим линки далее
В ирку выкидывали лист с хэшами, около 3700 Мой словарик осили около 56%, правда по времени это заняло около часа Очищу его и куда-нибудь залью. Если есть большой лист на пробу, то не откажусь протестить пробив ещё раз =)
http://www.rubricon.com/qe.asp?qtype=1&id=0&srubr=0&fstring=%u043B%u04 38%u043C%u0444%u0430%u0442%u0438%u0447%u0435%u0441%u043A%u0438%u0439 тетка филолог)))
Не найдено. Проверьте, пожалуйста, правильность написания слов в запросе или попробуйте использовать для запроса другие слова. нормальный линк дай
******************************************************************* Короче пробиваемоcть лучше почти в два раза по сравнению со старым Собрал хеши md5 за последний месяц, чтобы протестить новые русские словари гибридной атакой Вот результат: a32afbe54e4fbab0c8c44c01f5b90792::martina 34976725000a1ed7fe6d8a9ab91bca19::pmg123 87b45e63d0371a13f2e16616fc1a29c1::pkc123 139babb1e7b7bb166dff5893fca144e0::september1 b9d3c7f891461fc6ab364c564a3b0419::gbyufkf d41d18578f6c9463ff6a08b4ac0da27b::arnol 13c19c7b139f974d4a4b5d60712686a1::shopping1 a9cc7e16d06d2972e69fcf8458e61552::lapan88 2cd56bf1a1ad440299439eb4a7c8c02c::zikko78 48672dab491b3794ebc420b1a3c283df::shafer12 d8578edf8458ce06fbc5bb76a58c5ca4::qwerty fcf282cb0c26471eecdd01cd5e0e043d::gcr2005 35c87adc68cf76b0a2018908510543ff::lmb22 a95eb8ccba168527d83049f89dffda57::gfhjkm1998 8a5a5466fc6994476467c6369f6fb6d6::luna23 acef095cdf27314c444291b86b3aac37::jbn1234 623541e0de186c431fcf2bb635731c0f::alle4 2333cfe8b6c72bb1a3c189d46f115f00::mustard1 a46ecdb5f998597c8245d6a31a142fd1::nikki9 c5de3ca1de89e488f71f0d3d973d0bf2::tgm2004 501eac2f653e8a4f95da26df42f67786::fhctybq 2b3d7ac24f4b84b3ec00f102d70117b6::romar2 b042568eecb9f70ae976143ac27be7c6::decebal 14610b0b06fc05d8598a7e5951437a66::tistoo 5b86ca8ecde06dd0f1ed486bde1aa61a::ikura12 cfd3239abf94eb5a94c8b88e2eeb61e5::kips123 030059bc1ec2d2943c237741cee1893f::tong77 fba55abd3b01b7bf16c5e33253e81840::hudson53 66e2573d66f35311278fed9a6d5ed559::chain123 65399db4180826f43fdff7e26b3740eb::sparta44 8bf8854bebe108183caeb845c7676ae4::of 37d153a06c79e99e4de5889dbe2e7c57::april 3af00c6cad11f7ab5db4467b66ce503e::friend 23a58bf9274bedb19375e527a0744fa9::with 8b04d5e3775d298e78455efc5ca404d5::first f43a9b3c95cd5c16bba66052e9f8216d::rrr2 ebeab3da6b87030f7c0b7341682dd544::llame 1527e462109b082392ef88359654713f::charter21 732d784114522909691eb19c9e86aa86::trop2005 b427ebd39c845eb5417b7f7aaf1f9724::zxcvbn bdef33f45033310365022645242fdf2e::dbnfvbyrf2 91d18532a33d2a389391f9dafe3a76a1::tandom81 2abc55b9e7db9277c2a02f2bf6964d5f::gjnt[f 218addca0eab22358ef69b120435f752::ram1980 ba1dc57f76e4abf99c60f02b032e87a5::rfpfyjdf 8cbfa295eb4fcdb2e05c745ae3fa62cb::cdtnjxrf 6313cd131bd75e9f8b91741fe0fb3eab::asad22 3d3d0d8bc049e2bff8c834b3efa44b54::sekret d2d601edc6251656d30b16bb947c39f4::mod1981 15ebc62205c983ab175990186f3e742f::london22 6d260b3edde6474eeffc8bbff465cd23::gremlin3 194b4b5dbc0d484b8d16e4ee7a75179f::lvplvp 2456aa80e94b616ab84948d79a26c597::www123 2491d7828a3611f8be165a9d891eb20a::sistemotehnik Всего было хешей: 875 Найдено по русскому словарю и его модификациям: 54 То есть 6.2 % Для сравнения: по старому найдено 29, почти в два раза меньше *******************************************************************