Парсинг txt и парсинг сайтов.

Drax · 29 Jul 2020

Ну начну с малого, сам проф. кодером не являюсь, но основы программирования знаю.
Прошу помочь выбрать язык программирования для среднего ума который хорошо бы выполнял задачу парсинга и обращения к сайтам. Нужны примеры ну и может кто поможет простеньким кодом. Я собираюсь начать учить данный язык с практикой.
Приведу примеры того что я хочу:
1. Допустим в txt файле есть следующая строка(фраза) "id=%", программа последовательно считывая строки(или фразы) указанного формата, при этом игнорируя все прочие, из файла обращается к сайту.
www.site.com/id=%
ну и делает скажем xpath запрос /html/body/div[1]/table[4]/tbody/tr[2]/td/table/tbody/tr[2]/td/table/tbody/tr/td/table/tbody/tr[4]/td[2], после чего пишет результат вида "id=/html/body/div[1]/table[4]/tbody/tr[2]/td/table/tbody/tr[2]/td/table/tbody/tr/td/table/tbody/tr[4]/td[2]" в другой Txt файл.

2. Второй вариант чисто по парсингу txt, допустим в txt файле есть строки вида "text1 {text2} - text3" и другие строки которые не нужны но они там есть прога должна найти все строки указанного вида игнорируя весь мусор и записать в txt:
1.{text2}
2.{text2}
3.{text2}
n.{text2}

3. отдельно хочу спросить, может кто знает конторы которые предлагают готовые решения?(хотя я понимаю лучше учить язык самому и писать самому так как это будет плюсом в дальнейшем).

4. Так же хотел спросить существует ли способ получать письма с почтового сервера в txt с сортировкой? Ну или может кто может подсказать хороший конвертер из pst в txt пусть даже платный.

lifescore · 29 Jul 2020

1. bash - костыльный, медленный зато универсально
Code:
$ cat file.txt
..1
id=17
id-1

$ cat file.txt | grep "id=" | xargs -n1 -P4 -I{} curl "http://site.com/{}"
Ну и в таком духе xmlint если xpath нужен или регулярными

2. опять же регулярными или cut/awk/sed
Code:
$ cat file.txt
1, http://ya.ru, Russia
2.,https://ay.ru/, Error

$ cut -d "," -f 2 file.txt
 http://ya.ru
https://ay.ru/

$ awk '{print $2}' file.txt
http://ya.ru
https://ay.ru/

$ grep -Eo "https?://\w+\.\w+" file.txt
http://ya.ru
https://ay.ru
3. A-parser, zennoposter, scrape и тд

4. curl умеет работать с imap pop https://debian-administration.org/article/726/Performing_IMAP_queries_via_curl

Xavittav · 26 Apr 2021

Почему программа стала платной?

Парсинг txt и парсинг сайтов.

Drax New Member

lifescore Elder - Старейшина

Xavittav New Member

Useful Searches

Парсинг txt и парсинг сайтов.

Drax New Member

lifescore Elder - Старейшина

Xavittav New Member