Есть многомиллионные базы примерно 500 миллионов строк. Нужно спарсить все строки с доменом @mail.ru и дочерние домены бк лист инбокс. Файл могу порезать по 10-20 лям. Вопрос собсно чем спарсить можно?! В приоритете большая скорость работы. железо позволяет.
Скачать и установить Python 2.7.3: http://python.org/download/ Code: #!/usr/bin/env python #-*-encoding:UTF-8-*- db_name = raw_input("Enter database name: ") with open(db_name) as inpt: with open("mail_ru.txt", "w") as out: with open("invalid_mails.txt", "w") as invalid: counter = 0 domains = ("mail.ru", "inbox.ru", "bk.ru", "list.ru") for line in inpt: counter += 1 try: login, domain = line.strip().split("@") except ValueError: invalid.write(line) else: if domain in domains: out.write(line) if counter % 100000 == 0: print "Processed {0} records".format(counter) P.S. Заодно, если не сложно - отпишите пожалуйста, сколько времени заняла работа скрипта (Если будете использовать). P.P.S. После установки Python вышеприведенный код сохранить в файл "parse.py" и запустить двойным щелчком на нем. В консольном окне ввести имя файла с БД и нажать "ENTER"
crymore братюнь, есть такой скриптик у меня, скинь мне файлик в личку, я отберу и результат тебе скину