Эффективная работа с большими обьемами текста (мини-статья)

Discussion in 'Инструменты' started by grimnir, 7 Jan 2014.

  1. grimnir

    grimnir Members of Antichat

    Joined:
    23 Apr 2012
    Messages:
    1,114
    Likes Received:
    830
    Reputations:
    231
    В связи с тем ,что часто приходится сортировать очень большие обьемы данных решил поделиться собественным опытом . Долгое время стояло 2 проблемы - открывать большие файлы и вторая - как их быстро сортировать и редактировать по различным критериям. В Linux при помощи встроенных утилит (sort,uniq и т.д) можно сделать подобное ,но новичкам это будет довольно трудно.
    Итак , первая утилита это Emurasoft EmEditor Professional текстовый редактор с полезными функциями ,который пришел на смену тормознутому notepad++
    EmEditor Professional - профессиональная версия мощного текстового редактора для программистов, веб-разработчиков и простых пользователей с подсветой синтаксиса и поддержкой юникода. Редактор обладает такими функциями, как поиск и замена в файлах с использованием регулярных выражений, автоопределением кодировок, подсветка ссылок и адресов электронной почты, блочный режим выделения, настройка панели кнопок, меню, шрифта и цвета элементов. Для каждого языка можно создавать отдельную конфигурацию. Также программа имеет поддержку мощных макросов написанных на JavaScript или VBScript, позволяющих создавать практически любые действия, используемые часто или периодически. Этот редактор является идеальным средством для редактирования HTML, PHP, JSP и XML файлов. При указании интернет-браузера в качестве внешнего приложения, вы сможете просматривать HTML файлы во время редактирования.
    Возможности программы
    • Поддержка файлов размером вплоть до 248 Гбайт
    • Редактирование бинарных файлов
    • Оптимизированный поиск и перемещение
    • Улучшенные проектные плагины
    • Возможность отображения панели функций
    • Оптимизированная скорость когда каждая строка имеет большую длину
    • Авто-панорамирование нажатием колесика мыши
    • Поддержка функции Drag and drop
    • Указание временных папок в настройках программы
    • Импорт INI файлов в системный реестр
    • Поддержка Юникода
    • Подсветка синтаксиса для ASP, C++, CSS, HTML, JavaScript, JSP, Pascal, Perl, Python, PHP, SQL, VBScript и других
    • Удобный пользовательский интерфейс с настраиваемой панелью инструментов
    Работает неимоверно быстро и открывает файлы очень больших обьемов.
    Дополнительный бонус поддержка CSV
    [​IMG]
    скачать можно тут h**p://2baksa.net/news/94628/

    Вторая программа это TextPipe Pro
    Мощнейшая утилита для автоматизации обработки, в т.ч. форматирования и конвертирования, текстовых файлов (*.txt, *.htm, *.xml, *.csv, *.tab, *.prn и т.д.) - замены в них текста, выполнения сложных преобразований, конвертирования и т.д. и т.п. В TextPipe Pro встроено почти полторы сотни фильтров практически на все случаи жизни - для разбивки и объединения файлов, добавления номеров строк, преобразований между OEM и ANSI, удаления столбцов, двоичных символов, кодов ANSI, дублирующихся строк кодов HTML, конвертации почтовых приложений из одного формата в другой и т.д. Поддерживается сложный поиск/замена, возможна связь с любой ADO/ODBC-базой и выполнение SQL-запросов с сохранением полученных результатов в файлах различного формата, работа из командной строки и очень многое другое.
    Семь причин отличающих TextPipe:
    1. TextPipe работает исключительно быстро за счет оптимизированых алгоритмов и ассемблера
    2. TextPipe работает с файлами неограниченного размера, даже файлы размером более 2 Гигабайт!
    3. TextPipe уникальных методы ограничения и контроля контроля, где именно были внесены изменения. Ограничить набором строк и столбцов с конкретными Tab или CSV полями, между HTML / XML тегами, так и внутри пользовательских диапазонов. Ограничения могут быть объединены, например, для колонок 1-10 из строк, соответствующие шаблону. Ограничения имеют важное значение для обширной, но контролируемого поиска и замены
    4. TextPipe выполняет несколько операций одновременно. Другие приложения предлагают только 1 до 5, либо требуют медленного многоходового подхода
    5. Если свыше 100 фильтров TextPipe's не подходят для ваших потребностей, вы можете использовать стандартные VBScript / JScript, чтобы написать свой. Другие приложения либо не предлагают этого, либо хотят заставить вас, чтобы изучили их собственный язык
    6. TextPipe является уникальным в предоставлении EasyPattern шаблону языка для тех, кто не знаком с текстом шаблонов (регулярных выражений). EasyPatterns имеет английский - который очень легко узнать
    7. TextPipe могут быть запланированы для не-интерактивном режиме, и может управляться внешней программы. Другие приложения предоставляют только интерфейс мыши.
    TextPipe позволяет быстро и легко конвертировать, преобразовывать и производить замену в текстовых файлах, в том числе:
    • HTML, XML и другие структурированные документы из WWW
    • Файлы с фиксированнаой длиной или файлы с разделителями (CSV, Tab и т.д.)
    • Unix, Mainframe форматы
    • Внутри Zip-архивов (и новый Microsoft Office 2007 форматы DOCX, XLSX, PPTX также)
    • ASCII, ANSI, Unicode и EBCDIC файлами
    • EDIFACT, HL7, SWIFT и другие структурированные форматы
    • Структурированных и неструктурированных отчетов любого размера или измерении
    • TextPipe также работает с бинарными файлами, однако для документов Word (. DOC) см. WordPipe, для электронных таблиц Excel (. XLS) см. ExcelPipe для презентаций PowerPoint (. PPT) см. PowerPointPipe и баз данных см. DataPipe. На веб-сайтах с помощью TextPipe см. WebPipe.
    • Пoиcк и зaмeн в cooтвeтcтвии с заданной cxeмой. Причем можно задать как абсолютно идентичные cooтвeтcтвия, так и c нeчeткoй лoгикoй coпocтaвлeнии (для иcпpaвлeния oбщeизвecтныx oшибoк нaбopa).
    • Сортировка текста по алфавиту, рандомизация строк, подсчет и удаление дублирующихся строк.
    • Добавление и(или) извлечение определенных слов, строк или частей текста, как введенных вручную, так и содержащихся в любом другом текстовом файле.
    • VBScript или JScript (или PerlScript, PythonScript, REXXscript и т.д.) фильтpы мoгyт быть oпиcaны c нacтpoйкoй для oбpaбoтки кaждoгo пoля.
    • Пpeoбpaзoвaниe cимвoлoв кoнцa cтpoки мeждy фopмaтaми Unix, Mainframe, DOS и Macintosh.
    • Преобразование текста в список слов.
    • Иcпpaвлeниe зaглaвнocти бyкв (нaпpимep, sImon -> Simon), несколько видов смены регистра текста.
    • Удaлeниe пpoбeлoв в нaчaлe, в кoнцe cтpoк, и yдaлeниe мнoжественных пробелов.
    • Удaлeниe тэгoв HTML и XML или только их атрибутов.
    • Дoбaвлeниe нyмepaции cтpoк, лeвoгo и пpaвoгo пoлeй, зaгoлoвкoв и cнocoк.
    • Дoбaвлeниe или yдaлeниe cтoлбцoв тeкcтa, дoпoлнитeльныx cтpoк.
    • Дoпoлнeниe или yceчeниe дaнныx пoлeй дo определенной шиpины.
    • Извлeчeниe aдpecoв элeктpoннoй пoчты и URL и мнoгoе мнoгoe дpyгoe...
    • Работает с файлами внутри Zip-архива, (и c новыи Microsoft Office 2007 форматами DOCX, XLSX, PPTX)
    От себя скажу ,что программа лучшая в своем роде ,гиговые файлы на моем субноутбуке (8Гб памяти) обрабтывает за считаные секунды и за счет поддержки регулярных выражений и фильтров позволяет делать с текстовой информацией любые преобразования.
    Нужно быстро из многогигабайтного тхт с мусором быстро выдернуть емайлы и удалить дубли? Нет проблем!Три клика и готово
    [​IMG]
    Для составления шаблона фильтра замена по регулярному выражению рекомендую сайт http://gskinner.com/RegExr/
    Последовательность действий для большого файла
    1)идем http://gskinner.com/RegExr/
    2)Вставляем для теста строчек 10 данных ,чтобы сайт не завис
    3)Составляем регулярное выражение ,опции ставим глобал и мультилайн
    [​IMG]
    4)Идем в TextPipe и выбираем replace -find pattern
    (perl style)
    [​IMG]
    5)В тестовую зону вносим данные и проверяем работу кнопкой учебный прогон ,если все работает просто перетягиваем полный файл и жмем Делать
    [​IMG]
    Это я только 2 фильтра показал ) Вообщем пробуйте ,жизнь облегчает очень сильно.
    скачать можно тут (рега любой номер, это репак) Скачать
    Благодарю за внимание.
     
    _________________________
    #1 grimnir, 7 Jan 2014
    Last edited: 7 Jan 2014
    Link34, SWAPPER and Protocoler like this.
  2. grimnir

    grimnir Members of Antichat

    Joined:
    23 Apr 2012
    Messages:
    1,114
    Likes Received:
    830
    Reputations:
    231
    Обновился TextPipe до версии 9.7
    http://2baksa.net/news/98696/
     
    _________________________
  3. grimnir

    grimnir Members of Antichat

    Joined:
    23 Apr 2012
    Messages:
    1,114
    Likes Received:
    830
    Reputations:
    231
    Обновился TextPipe до версии 9.7.3
    http://2baksa.net/news/99373/
    http://rsload.net/noload/files/044/rsload.net.TextPipe.Pro.9.5.3.zip
     
    _________________________
    #3 grimnir, 3 Sep 2014
    Last edited: 3 Sep 2014
  4. grimnir

    grimnir Members of Antichat

    Joined:
    23 Apr 2012
    Messages:
    1,114
    Likes Received:
    830
    Reputations:
    231
    Еще вариант для винды- сверх-быстрый прогон файлов на дубли, там где загнулся даже TextPipe (400млн строк)
    Качаем http://unxutils.sourceforge.net/
    Распаковывем, нам понадобится утилита sort
    В папку ,к примеру C:\nodup ложим файл ,который нужно прогнать на дубли ,назовем его 1.txt
    пишем синтаксис sort -u -T C:\nodup -o C:\nodup\nodup.txt C:\nodup\1.txt
    -u убрать дубликаты
    -T кеширование
    -o выходной файл
     
    _________________________
    1 person likes this.
  5. grimnir

    grimnir Members of Antichat

    Joined:
    23 Apr 2012
    Messages:
    1,114
    Likes Received:
    830
    Reputations:
    231
    EmEditor обновлен до 14.6.0 beta 12.
    http://www.emurasoft.com/pub/emed64_14.5.911.exe
     
    _________________________
  6. grimnir

    grimnir Members of Antichat

    Joined:
    23 Apr 2012
    Messages:
    1,114
    Likes Received:
    830
    Reputations:
    231
    http://2baksa.net/news/100281/
    Emurasoft EmEditor Professional 14.6.0
    добавили очень много нового, особенно для работ с csv таблицами
     
    _________________________
    1 person likes this.
  7. grimnir

    grimnir Members of Antichat

    Joined:
    23 Apr 2012
    Messages:
    1,114
    Likes Received:
    830
    Reputations:
    231
    http://2baksa.net/news/100588/
    Emurasoft EmEditor Professional 14.6.1
    Обновления от v14.6.0 включает:
    Исправления
    Исправлена ошибка на v14.6.0 где Undo, возможно, не работал при определенном условии.
    Исправлена ошибка на 32-битной редакции v14.6.0 где замена в файлах с использованием регулярных выражений не работать при определенном условии.
    Исправлена ошибка, при которой какой-то текст не был виден в режиме CSV в зависимости от положения сепаратора.
    Новая версия не позволит Filter и Outline режим сосуществуют.
    Исправлена ошибка, при которой вертикальные выборы в течение режиме фильтра выявлено курсоры в невидимых линий.
    В новой версии пытается перейти к позиции курсора послеthe режима фильтра отменяется.
    Новая версия не будет выхода из режима фильтра после файла перезагрузки.
    Исправлена ошибка, при которой появляетсяthe окно с сообщением дважды после выбора всех, скопируйте и вставьте в режиме фильтра.
     
    _________________________
  8. grimnir

    grimnir Members of Antichat

    Joined:
    23 Apr 2012
    Messages:
    1,114
    Likes Received:
    830
    Reputations:
    231
    TextPipe Pro v9.7.3
    ченджлог http://www.datamystic.com/textpipe/whatsnew.html
    h**p://rutracker[ТОЧКА]org/forum/viewtopic.php?t=4821109
     
    _________________________
  9. grimnir

    grimnir Members of Antichat

    Joined:
    23 Apr 2012
    Messages:
    1,114
    Likes Received:
    830
    Reputations:
    231
    https://www.emeditor.com/emeditor-core/emeditor-v14-7-0-released/
    кряк подходит от предыдущей версии
     
    _________________________
  10. grimnir

    grimnir Members of Antichat

    Joined:
    23 Apr 2012
    Messages:
    1,114
    Likes Received:
    830
    Reputations:
    231
    https://www.emeditor.com/emeditor-core/emeditor-v14-7-1-released/
     
    _________________________
  11. grimnir

    grimnir Members of Antichat

    Joined:
    23 Apr 2012
    Messages:
    1,114
    Likes Received:
    830
    Reputations:
    231
    https://www.emeditor.com/emeditor-core/emeditor-v14-8-0-beta-1-released-new-feature-page-v14-8-available-now/
     
    _________________________
  12. grimnir

    grimnir Members of Antichat

    Joined:
    23 Apr 2012
    Messages:
    1,114
    Likes Received:
    830
    Reputations:
    231
    http://2baksa.net/news/101982/
    Emurasoft EmEditor Professional 14.8.0
     
    _________________________
  13. grimnir

    grimnir Members of Antichat

    Joined:
    23 Apr 2012
    Messages:
    1,114
    Likes Received:
    830
    Reputations:
    231
    https://www.emeditor.com/emeditor-core/ 14.9.1
    Наконец-то им стало можно сортировать большие файлы, как оказалось утилита сорт без бубна работает криво ,если в файле есть нестандартные символы -просто урезает весь файл )
    Емедитор протестировал (харддрайв ССД плекстор, памяти оперативной 32 Гб)
    Версия 18х сортировка 40 млн строк - 7.2 часа
    19 версия -18 минут
     
    _________________________
  14. grimnir

    grimnir Members of Antichat

    Joined:
    23 Apr 2012
    Messages:
    1,114
    Likes Received:
    830
    Reputations:
    231
    14.9.3 https://www.emeditor.com/emeditor-core/emeditor-v14-9-3-released/
     
    _________________________
  15. grimnir

    grimnir Members of Antichat

    Joined:
    23 Apr 2012
    Messages:
    1,114
    Likes Received:
    830
    Reputations:
    231
    _________________________
  16. grimnir

    grimnir Members of Antichat

    Joined:
    23 Apr 2012
    Messages:
    1,114
    Likes Received:
    830
    Reputations:
    231
  17. grimnir

    grimnir Members of Antichat

    Joined:
    23 Apr 2012
    Messages:
    1,114
    Likes Received:
    830
    Reputations:
    231
  18. grimnir

    grimnir Members of Antichat

    Joined:
    23 Apr 2012
    Messages:
    1,114
    Likes Received:
    830
    Reputations:
    231
    Давно не обновлял тему.
    Вышла новая версия, в разы увеличина скорость,возможность выборки любых столбцов,так что эксель теперь не нужен )
    https://www.emeditor.com/emeditor-core/emeditor-v15-3-1-released/
    Полный ченджлог https://www.emeditor.com/text-editor-features/history/new-in-version-15-3/
    Также есть отличная новость для тех,кто работает с бд, софт для сортировки и редактирования гиганских баз, работает намного быстрее TextPipe (оригинал на юхаке http://youhack.ru/showthread.php?t=511423)
    И вторая новость -рабочий кряк для EmEditor
    Софт http://youhack.ru/showthread.php?t=511423
    Кряк для EmEditor (взял с руборда) https://www.sendspace.com/file/f4fln0
    Если не работаетто установите софт с 0
     
    _________________________
  19. grimnir

    grimnir Members of Antichat

    Joined:
    23 Apr 2012
    Messages:
    1,114
    Likes Received:
    830
    Reputations:
    231
    _________________________
    DezMond™ and Payer like this.
  20. grimnir

    grimnir Members of Antichat

    Joined:
    23 Apr 2012
    Messages:
    1,114
    Likes Received:
    830
    Reputations:
    231
    https://www.upload.ee/files/8058661/TextPipe10.6.2.7z.html ломаная версия
    список изменений колоссальный
    http://www.datamystic.com/textpipe/whatsnew.html

    emeditor
    крякалка на новую версию 15.х ,старый не работает!
    https://www.upload.ee/files/8072097/EmEditor_17.x.7z.html

    сам софт
    https://www.emeditor.com/text-editor-features/history/new-in-version-17-5/
    чейнджлог https://www.emeditor.com/text-editor-features/history/
     
    _________________________
    eminlayer7788 and crlf like this.