Языковая модель, разработанная на задворках даркнета... для науки. Мы все еще находимся на ранней стадии эффекта снежного кома, вызванного выпуском в дикую природу больших языковых моделей (LLM), таких как ChatGPT. В сочетании с открытым исходным кодом других моделей GPT (Generative Pre-Trained Transformer) количество приложений, использующих искусственный интеллект, стремительно растет. И, как мы знаем, сам ChatGPT может использоваться для создания высокоразвитых вредоносных программ. С течением времени количество прикладных LLM будет только увеличиваться, каждый из которых специализируется в своей области, обучаясь на тщательно отобранных данных для конкретной цели. И недавно было удалено одно такое приложение, которое было обучено на данных из самой темной сети. DarkBERT, как назвали его южнокорейские создатели, появился — перейдите по этой ссылке, чтобы ознакомиться с пресс-релизом, в котором дается общее представление о самом dark web. DarkBERT основан на архитектуре RoBERTa - подходе к искусственному интеллекту, разработанном еще в 2019 году. Он пережил своего рода ренессанс, когда исследователи обнаружили, что на самом деле он может дать больше производительности, чем можно было бы извлечь из него в 2019 году. Похоже, что при выпуске модель была сильно недотренирована, что намного ниже ее максимальной эффективности. Чтобы обучить модель, исследователи просмотрели DarkWeb через анонимизирующий брандмауэр сети Tor, а затем отфильтровали необработанные данные (применив такие методы, как дедупликация, балансировка категорий и предварительная обработка данных) для создания базы данных DarkWeb. DarkBERT является результатом использования этой базы данных для создания модели RoBERTa Large Language Model, модели, которая может анализировать новый фрагмент контента Dark Web - написанный на его собственных диалектах и сильно закодированные сообщения — и извлекать из него полезную информацию. Сказать, что английский - это деловой язык Даркнета, было бы не совсем корректно, но это достаточно устойчивое выражение, чтобы, по мнению исследователей, на нем должна обучаться конкретная нейросеть. В конце концов, они были правы: исследователи показали, что DarkBERT превосходит другие крупные языковые модели, что должно позволить исследователям безопасности и правоохранительным органам глубже проникать в тайники Интернета. В конце концов, именно там происходит большая часть событий. Как и в случае с другими LLM, это не означает, что DarkBERT закончен, и дальнейшее обучение и настройка могут продолжать улучшать его результаты. Как это будет использоваться и какие знания можно почерпнуть, еще предстоит выяснить. 17.05.2023 https://www.tomshardware.com/news/dark-web-chatgpt-unleashed-meet-darkbert