Vulners — Гугл для хакера. Как устроен лучший поисковик по уязвимостям и как им пользоваться / Блог компании Журнал Хакер / Хабр

Автоматизация анализа уязвимостей программного обеспечения на основе технологии text mining

(АВТОМАТИЗАЦИЯ АНАЛИЗА УЯЗВИМОСТЕЙ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ НА ОСНОВЕ ТЕХНОЛОГИИ TEXT MINING

Васильев В.И.1, Вульфин А.М2., Кучкарова Н.В.3

Цель исследования: разработка автоматизированной системы анализа уязвимостей программного обеспечения (ПО) промышленных информационно-управляющих систем (АСУ ТП) на основе технологии интеллектуального анализа текстов, написанных на естественном языке (Text Mining).

Метод исследования: сопоставление множества выявленных уязвимостей ПО и релевантных угроз безопасности информации путем оценки метрик семантической близости их текстовых описаний с использованием методов Text Mining.

Полученные результаты: предложена архитектура автоматизированной системы анализа уязвимостей ПО, позволяющая оценить уровень критичности уязвимостей и сопоставить их с наиболее подходящими по описанию (т.е. семантически близкими) угрозами из Банка данных угроз безопасности информации ФСТЭК России, обеспечивая при этом возможность ранжирования (приоритезации) рассматриваемых уязвимостей и угроз. Разработаны основные программные модули системы. Проведены вычислительные эксперименты с целью оценки эффективности ее применения. Показано, что применение разработанной системы позволяет повысить достоверность оценки степени критичности уязвимостей ПО, значительно сокращая затраты времени на поиск и сопоставление уязвимостей и угроз.

Ключевые слова: угрозы информационной безопасности, интеллектуальная фильтрация, векторное представление слов, лемматизация, семантическая близость.

1.Введение

Как показывает статистика последних лет, ситуация в мире в области кибербезопасности все более усложняется. В 2021г. было зафиксировано более 1,5 тыс. цифровых атак, что на 19% больше, чем в 2021г. Доля целенаправленных атак при этом выросла на 5% по сравнению с 2021г. и составила 60%4. Согласно данным5, в 2021 г. было обнаружено более 22 тыс. новых уязвимостей. По крайней мере, треть из них оценивается экспертами как имеющие высокую и критическую степень риска. Важным шагом на пути решения данной проблемы является сбор, систематизация и обобщение информации из различных источников о ранее обнаруженных уязви-мостях ПО (то, что сегодня входит в понятие Vulnerability Intelligence – «совокупность знаний об уязвимости» [1]).

4 Актуальные киберугрозы: итоги 2021 года [Positive Technologies Research]. [Электронный ресурс]. URL: https://www.ptsecurity.com/ ru~ru/research/analytics/cybersecurity-threatscape-2021/ (дата обращения 01.08.2020).

5 Risk Based Security. Обзор уязвимостей: отчет за 2021 год. [Электронный ресурс]. URL: https://www.ict.moscow/research/obzor-uiazvimostei-otchet-za-2021-god/ (дата обращения 01.08.2020).

DOI: 10.21681/2311-3456-2020-04-22-31

Существует большое число официально признанных реестров и баз данных (БД) уязвимостей ПО (NDV, CVE, VulnDB, X-Force, Банк данных угроз безопасности информации ФСТЭК России и др.). Широкое применение получили различные системы классификации и оценки критичности уязвимостей (NIPC, SANC, nCircle, CVSS, WIVSS, и др.) [2]. В то же время, работа с указанными БД и системами предполагает «ручной» поиск и анализ уязвимостей с учетом особенностей ПО конкретной организации, что, как правило, требует больших затрат времени со стороны специалистов в области ИБ. Поэтому во многих исследованиях сегодня активно поднимается проблема автоматизации поиска и анализа уязвимостей ПО с использованием существующих БД и систем оценки уязвимостей [3,4].

Одним из перспективных путей решения данной проблемы является применение методов и технологий интеллектуального анализа текстов (Text Mining). Суть данного подхода применительно к затронутой выше проблеме заключается в том, что исходные текстовые описания уязвимостей, хранящиеся в БД, еще до их

1 Васильев Владимир Иванович, доктор технических наук, профессор, профессор кафедры вычислительной техники и защиты информации Уфимского государственного авиационного технического университета, г Уфа, Россия, e-mail:vasilyev@ugatu.ac.ru

2 Вульфин Алексей Михайлович, кандидат технических наук, доцент кафедры вычислительной техники и защиты информации Уфимского государственного авиационного технического университета, г Уфа, Россия, vulfin.alexey@gmail.com

3 Кучкарова Наиля Вакилевна, магистр, старший преподаватель кафедры вычислительной техники и защиты информации Уфимского

государственного авиационного технического университета, г Уфа, Россия, nailya_kuchkarov@mail.ru

экспертной оценки (в значительной степени субъективной) содержат значительный объем существенной (скрытой) информации, которую нужно выявить из исходного текста и правильно интерпретировать, что и позволяют методы Text Mining. Об интересе к данному направлению и его перспективности говорит достаточно большое число появившихся в последние годы публикаций [5-14], касающихся тех или иных аспектов решения данной задачи с применением Text Mining.

В отличие от указанных работ, авторы данной статьи предлагают при анализе описания уязвимостей ПО использовать дополнительно информацию, полученную путем сопоставления описаний этих уязвимостей с описаниями спроецированных (связанных с ними) угроз, взятыми из БД угроз. Аналогичная идея, связанная с сопоставлением описаний уязвимостей и угроз, была высказана ранее в [15], где была предложена автоматизированная методика выявления скрытых взаимосвязей уязвимостей, зафиксированных с помощью сканера, и угроз ИБ на основе вычисления базовых метрик CVSS и их последующего сравнения, на основании чего составляется список пар «уязвимости – релевантные угрозы» для конкретной информационной системы (ИС). Ниже в 3-ей части статьи будет произведено сравнение результатов, полученных с помощью предложенного авторами подхода, и результатов, полученных с помощью методики [16].

2. Text mining и анализ уязвимостей

2.1 Предварительная подготовка и формализация текстовых данных на естественном языке

Существующие базы данных (БД) уязвимостей (NDV, CVE List, Банк угроз безопасности информации ФСТЭК России и др.) содержат огромное количество информации об уязвимостях ПО, поступающей из различных источников. Так, на конец 2021г. в базе данных NDV содержалось более 136 тысяч записей уязвимостей6, В Банке данных угроз безопасности информации (БДУ) ФСТЭК России по состоянию на 01.08.2020г. хранилось 217 записей с описанием угроз и 28010 записей с описаниями уязвимостей ПО.

Для того чтобы перейти к использованию методов машинного обучения, необходимо прежде всего произвести предварительную обработку указанной информации (т.е. текстовых описаний уязвимостей, записанных на естественном языке) с помощью следующих операций [17]:

– нормализация (приведение текста к более простому виду удаление знаков пунктуации, аббревиатур, стоп-слов, не несущих смысловой нагрузки союзов, предлогов, междометий.);

– стеммизация (приведение слова к его корню, путем устранения суффиксов, приставок, окончаний);

– лемматизация (приведение слова к смысловой канонической форме – инфинитив, именительный падеж единственного числа и т.д.).

В результате удается сократить текст, убрав из него все несущественные для последующего изучения де-

6 National Vulnerability Database. [Электронный ресурс] URL: https://nvd. nist.gov/ (дата обращения: 01.08.2020).

тали. Следующим шагом преобразования полученного «рафинированного» текста является переход от слов и предложений к их векторному представлению в многомерном семантическом пространстве признаков.

Широкую известность в качестве метода векторного представления слов (Word Embedding) получил разработанный в 2021г. группой исследователей под руководством Т. Миколова (корпорация Google) алгоритм Word2Vec [18]. Данный алгоритм обучается на прочтении большого количества документов (в нашем случае – текстовых описаний из БД уязвимостей) с последующим запоминанием того, какое слово возникает в схожих контекстах. По завершении процесса обучения на достаточном количестве данных Word2Vec генерирует вектор заданной длины для каждого слова в образованном таким образом словаре, в котором слова со схожим значением располагаются ближе друг к другу. Разновидности данного алгоритма – модель непрерывного «мешка слов» (Oontinuous Bag-Of-Words, CBOW), когда по текущему слову в предложении предсказываются слова из его контекста, и модель Skip-Gram, когда по окружению слова, т.е. по его контекстным словам, предсказывается центральное слово сегмента текста. В качестве расширения алгоритма Word2Vec предложен алгоритм Doc2Vec. Он формирует так называемый paragraph vector (вектор абзаца) – алгоритм обучения без учителя, который создает пространство признаков фиксированной длины из документов разной длины. Для оценки меры семантической близости слов (точек в рассматриваемом многомерном пространстве) при этом могут использоваться различные метрики расстояния (евклидова, косинусная метрика и др.) [19,20].

2.2 Структурно-функциональная организация автоматизированной системы анализа уязвимостей ПО

Автоматизированная система анализа уязвимостей ПО предназначена для автоматизации процесса обработки накапливаемых с помощью хостовых сканеров безопасности данных об обнаруженных уязвимостях. Ядром системы является механизм сопоставления текстовых описаний уязвимостей и связанных с ними угроз безопасности информации, что позволяет уточнить и актуализировать перечень рассматриваемых уязвимостей, и кроме того, осуществить приоритезацию указанных угроз с учетом дополнительной информации о наличии зависимостей между угрозами и уязвимостями ПО.

Архитектура системы включает в себя следующие основные подсистемы:

– подсистему локального хранения актуальной копии БДУ ФСТЭК (I);

– подсистему сопоставления угроз и уязвимостей на основе их текстового описания (II);

– подсистему оценки актуальных угроз и уязвимостей для корпоративной информационной системы (III).

Детализированная структурно-функциональная организация системы представлена на рисунке 1. Рассмотрим подробнее состав каждой из подсистем.

БДУ ФСТЭК

от

Модуль выгрузки XML описаний угроз и уязвимостей

Модуль синхронизации с внешней БД

Локальная БД с проецированием ORM на OVAL XML формат данных сканера

CVE-manager host!

CVE-manager hosti

о.

Консоль специалиста

по оценке актуальности угроз и уязвимостей компонентов КИС

Серверная компонента CVE-manager

Модуль ППР по ранжированию потенциальных угроз и уязвимостей

Модуль предобработки текстовых описаний угроз и уязвимостей

I©

Модуль построения векторного представления текстовых описаний угроз и уязвимостей

Модуль оценки семантической близости текстовых описаний угроз и уязвимостей

Модуль поисковых запросов к БД на основе системы тэгов и правил

TWY

Консоль управления базой знаний

Модуль автоматического построения многомерной матрицы сопоставления угроз и уязвимостей

TWT

Модуль верификации матрицы сопоставления

Консоль эксперта для оценки корректности сопоставления множества угроз и уязвимостей

О о

Хранилище базы знаний сопоставления множества угроз и уязвимостей

Рис.1. Структурно-функциональная организацияподсистемыотбораианализаактуальных угроз и уязвимостей на основе оценкисемантическойблизости их текстовых описаний

Подсистема локального хранения актуальной копии БДУ ФСТЭК (I) предназначена для построения СУБД с объектно-ориентированным проецированием (ORM) хранимых сущностей, характеризующих угрозы и уязвимости в формате открытого языка описан ияи оценки уязвимостей (OVAL) [21], на сериализуемые файлы с выбранной XML-схемой. Модуль синхронизации с внешней БД сопоставляет (5) временные метки изменений данных внешнего хранилища БДУ ФСТЭК (1) и метки в локальном хранилище. По результатам сопоставления принимается решение о запуске (4) механизма синхронизации. Модуль выгрузки XML-описаний угроз и уязвимостей из внешней базы подключается (2) к серверу БДУ и выполняет импорт данных (3) в локальную СУБД в требуемом формате.

Рефераты: Влияние акустических явлений на здоровье человека – внеурочная деятельность (конкурсная работа) – Корпорация Российский учебник (издательство Дрофа – Вентана)

Подсистема сопоставления угроз и уязвимостей на основе их текстового описания (II) предназначена для построения базы знаний, описывающей отображение множества уязвимостей на множество угроз.

БДУ, помимо формальных метрик, содержит текстовое описание уязвимости и угрозы, характеризующее особенности их проявления и возможности эксплуатации злоумышленником. Модуль предобработки тук-стовых описаний угроз и уязвимостей извлекает (10) данные из локального хранилища и выполняет цеп очку подготовительных преобразований текстовых описаний (фильтрацию и нормализацию) сущностей для перзда-чи (11) в модуль построения их формализованных зек-торных представлений. Модуль оценки семантической

близоститекстовых описанийиспользует (12) формализованные векторы признаков каждой сущности для попарной оцснкасхоисталнаосновскосисус-оефики. Далее,модульовтоматитлуованногоптсироснся уал-кпмерной мстрицы сoпocзтслeУбтифoз и сязвсмиссей ноосн овеооенок ceмоттичсскoИблизоитуфибмиpсeт (13) матрицу отображения множества уязвимостей на множество угроз вида

V V

T d(T1,V1) d(TV) T d (T2,V) d (T2,V2)

Tn d (Tn ,V) d (Tn, V) ! d (Tn Vm)

d (T,Vm )

d (T2Vm )

(1)

Эксперты (Л2) с помощью консоли доступа выполняют оценку (16) корректности сопоставления множества угроз и уязвимостей и выполняют корректировку в случае необходимости. В процессе верификации (14) матрицы сопоставления эксперты опираются (17) на имеющийся механизм поисковых запросов к локальной БД на основе системы тегов и правил фильтрации, предусмотренных БДУ ФСТЭК (21, 15). Верифицированные сопоставления угроз и уязвимостей помещаются в хранилище базы знаний для последующего использования экспертами в ходе аудита ИБ корпоративной ИС. Специ-

алист по знания (Л3) управляет работой модулей предобработки и векторизации текстовых описаний, а также следит за метриками качества базы знаний.

Подсистема оценки актуальных угроз и уязви-мостей для корпоративной информационной системы (III) с помощью клиент-серверного сканера (CVE-manager) обеспечивается сбор (7, 8) данных об уязви-мостях программного обеспечения рабочих станций и серверов КИС. Применяется связка ПО CVE-manager и ScanOVAL для ОС Linux и Windows, управляемое серверной компонентой, и взаимодействующее (6) с локальной БД. Результаты поиска уязвимостей с помощью сканеров безопасности представляются в виде XML документов с разметкой на языке OVAL. Применение графических интерфейсов работы с найденными уязви-мостями ScanOVAL и WEB-интерфейс БДУ ФСТЭК позволяют выполнить фильтрацию найденных уязвимостей по 15 параметрам. Однако, ввиду значительного количества выявляемых уязвимостей на отдельных хостах (более 200 уязвимостей для системы с систематическим обновлением минимального набора прикладного ПО), ручная фильтрация даже наиболее критических по оценкам уязвимостей может занять длительное время. Существующие решения [15] позволяют упростить поиск и сопоставление актуальных угроз и уязвимостей для конкретных версий ПО, но дальнейшая автоматизация процедуры подбора актуальных угроз и уязвимостей на основе данных интеллектуальной фильтрации и оценки семантической близости их текстовых описаний позволит масштабировать решение для крупных ИС. С помощью консоли специалист по ИБ (Л1) выполняет

оценку (20) актуальных угроз и уязвимостей для отдельных узлов КИС, руководствуясь рекомендациями модуля поддержки принятия решений по ранжированию и сопоставлению потенциальных угроз и уязвимостей, полученных (9) в результате сканирования ПО ИС, и механизмами интеллектуальной фильтрации (19) на основе извлекаемых из базы знаний (рис. 2).

2.3 Архитектура конвейера по обработке данных текстовых описаний угроз и уязвимостей БДУ

Функциональная схема конвейера подготовки текстовых данных и оценки семантической близости текстовых описаний угроз и уязвимостей представлена на рисунке 3.

Ключевыми этапами обработки являются:

Загрузка данных из локальной БД (1) – необходима для преобразования текстовых полей каждой записи в единое текстовое описание для последующей обработки.

Нормализация (2) текстовых описаний угроз и уязвимостей- включает шаги по символьной фильтрации, токенизации и фильтрации с использованием общего и специализированного (формируемого экспертами) «стоп-словарей». Заключительным шагом является лем-матизация с применением инструментов pymystem3.

Экспертная структурно-семантическая разметка (3) текста на основе системы doccano – позволяет выделить семантические особенности текстовых описаний (ключевые слова, ключевые словосочетания, отношения между сущностями) и уточнить состав специализированного стоп-словаря.

Рис.2. Список актуальных уязвимостей, ранжированных по степени критичности, и сопоставленные с ними угрозы (в порядке убывания метрики семантической близости)

Рис.3. Функциональная схема конвейера подготовки текстовых данных и оценки семантической близости текстовых описаний угроз и уязвимостей

Ключевым является этап (4) построения формализованного вектора признаков текстовых описаний. Применяемые схемы частотного представления (Bag of Word, BoW), прямого кодирования, скоринга для частотного представления (BoW TF-IDF) и распределенное представление (с помощью моделей Word2Vec, Doc2Vec и FastText) позволяют сформировать гетерогенный вектор признаков, однозначно определяющий текстовое описание сущности в признаковом пространстве. На следующем этапе (5) выполняется отбор наиболее значимых признаков с помощью экспертной оценки структуры двухмерной визуализации стохастического вложения соседей с t-распределением (TSNE) редуцированного пространства признаков с помощью метода главных компонент (PCA) или сингулярного разложения (SVD) (рисунок 4). Визуальная оценка при разной заданной избирательности модели векторизации позволяет оценить, насколько компактными и отделимыми являются формируемые группы текстовых описаний угроз и уязвимостей. Основная задача данного этапа – оценить, имеется ли структура в данном признаковом пространстве у данных, т.е. присутствует ли группировка семантически близких сущностей в отделимые кластеры.

Заключительным является этап (6) оценки семантической близости текстовых описаний и формирование матрицы попарных расстояний на основе косинус-метрики.

3. Результаты эксперимента по построению отношения «уязвимости – релевантные угрозы»

Доступная база уязвимостей содержит 27085 записей, база угроз – 217 записей. Из текстовых описаний объемом 740634 слова был сформирован словарь 12884 уникальных слов. После процедуры предобработки и нормализации построена модель Doc2Vec с помощью фреймворка Gensim. Размер формализованного вектора признаков выбран равным 100, количество эпох обучения модели равно 40. Параметры модели подбирались экспериментально.

В качестве иллюстрации работы системы рассмотрим выявленную хостовым сканером безопасности уязвимость BDU:2021-00285 «Уязвимость программного обеспечения Flash Player, позволяющая удаленному злоумышленнику нарушить конфиденциальность, целостность и доступность защищаемой информации». Данной уязвимости эксперт в ручном режиме поставил в соответствие угрозу УБИ.192 (таблица 1).

недостаток

suse red • • hat

перепфраеи!^

освобождение ^ация •

Ш Повреждение динамический *

версии

ea,t%s d*bian 9n* епсефпБе

вторым УДЯЯёАИЬр

злоумышленник

некор]

редактЯ^бЙМОТ©

связывать

nK,olfT память

ооъею^ использовать » об(ЖуживаниеЭ| —

работа nor

tra« пр;

cloud

explor^-

повышать выполнять

воздействие

ьыо содержать

Й^цедур^а •

Ф — • сете1

доступ Члегия .html нныГ

• javL . „ • файл

пользовате^иложенуде*

буфе^

УстЙРЙств^«сфорп0^ файл

document

«=п-,£Ршение •коФгекст •

edg^e

^gfirefox • godÇle

flash

f Д»иТлйь&Р^з°оТп^ность^оМанд

платформа ^волят# механизм* _ обесреЛиве управ связанньш

Player CHffle™, ^ествов*.ь свой обход^,^

” реализация ^|5»ег угроза входной

ctemfflilhc • • •

библиотекаЯу*®* система i браузер» прщ^мный * Ч» •в комлонентп^фа^ма ¡чвиитвфикация

6ti) onepai^o

операционный

mac windows ядро microsoft •android * ®

internet база •

ограничение проверку

сл^еШьш

разгр8ЯИЧВНй|

Рис.4. Двухмерная визуализация стохастического вложения соседей с ^распределением (TSNE) редуцированного пространства признаков распределенного векторного представления Doc2Vec

DOI:10.21681/2311-3456-2020-04-22-31

Таблица 1

Экспертное сопоставление угроз и уязвимостей из БДУ ФСТЭК

Угроза Уязвимость Воздействие/уровень опасности

УБИ.192 Угроза использования уязвимых версий программного обеспечения. BDU:2021-00285 Уязвимость программного обеспечения Flash Player, позволяющая удаленному злоумышленнику нарушить конфиденциальность, целостность и доступность защищаемой информации Критический уровень опасности (базовая оценка CVSS 2.0 составляет 10)

Используя текстовое описание уязвимости, с помощью разработанного модуля автоматизированной системы осуществим выбор семантически близких по описанию угроз из БДУ ФСТЭК. На рисунке 5 показаны результаты подбора 10 релевантных угроз, отсортированных в порядке убывания метрики семантической близости.

Как видно из рисунка, угроза УБИ.192 попадает в данный перечень, что совпадает с результатом предварительного экспертного оценивания. Аналогичным образом, для выбранных в процессе экспертного анализа и сбора данных сканерами уязвимостей (поиск уста-

новленных версий ПО с имеющимися уязвимостями по БДУ) производится подбор соответствующих угроз. Финальная стадия анализа позволяет упростить работу эксперта, значительно сократив время на поиск и сопоставление уязвимостей и угроз.

Применяемые для префильтрации средства [15,16] позволяют упростить поиск и сопоставление актуальных угроз и уязвимостей для конкретных версий ПО и сократить количество просматриваемых экспертом угроз для отдельной уязвимости с 200 до 4.

Сравнение процедуры анализа уязвимостей WEB-браузера Firefox с [16] приведены в таблице 2.

Рис. 5. Релевантные угрозы, отсортированные в порядке убывания нормированной метрики семантической близости (score) к данной уязвимости BDU:2021-00285

Таблица 2

Сравнение процедуры анализа уязвимостей

Параметр Поиск по тегам Система [16] Автоматизированная система на основе Text Mining

Ввод информации Вручную, графический WEB-интерфейс БДУ Формирование запроса оператором в графическом интерфейсе Автоматизированная обработка результатов работы сканеров уязвимостей

Количество найденных уязвимостей 41 41 48

Количество сопоставленных угроз 2 (ручное сопоставление) 8 (задается на основе сформированной матрицы) 10 (задается пороговыми и количественными метриками, определяющими чувствительность фильтра на основе сформированной матрицы)

Затраченное время Более 11 минут 20 с < 5 с

Согласно оценке [16], время, затрачиваемое на сопоставление угроз и уязвимости «вручную» для полного списка, при этом составляет более 2 часов, применение же предлагаемых решений позволяет сократить время анализа до 20 секунд. Предлагаемая система для сопоставления на основе анализа текстовых описаний позволяет выполнить ранжирование оставшихся угроз по степени их семантической близости к конкретной уязвимости, тем самым дополнительно снижая когнитивную нагрузку на эксперта и уменьшая время анализа.

Заключение

Рассмотрена архитектура системы анализа критичных уязвимостей ПО с использованием технологии Text Mining, основанная на алгоритмах векторного представления слов и оценки семантической близости текстовых описаний уязвимостей, выявленных с помощью сканеров безопасности, и описаний релевантных угроз из Банка данных угроз безопасности информации ФСТЭК России. Программная реализация клиент-серверного прототипа данной системы и интеграция с модулями существующих решений позволяют:

– автоматизировать процесс сопоставления и ранжирования угроз ИБ для каждой выявленной уязвимости на рабочих станциях и серверах в составе корпоративной информационной системы;

– в несколько раз сократить время ручного анализа экспертом результатов работы сканеров за счет интеллектуальной фильтрации и ранжирования списка угроз;

– снизить когнитивную нагрузку на эксперта и повысить достоверность оценки степени критичности уязвимостей ПО за счет использования дополнительной информации о фактически существующих зависимостях между выявленными уязвимостями и потенциальными угрозами;

– масштабировать решение для крупных ИС за счет интеграции с существующими БД уязвимостей и формализации знаний экспертов о прецедентах сопоставления угроз и уязвимостей в пополняемой базе.

Исследование выполнено при финансовой поддержке Минобрнауки России (грант ИБ) в рамках научного проекта № 1/2020.

Рефераты: Пример оформления дипломной работы(образец)ГОСТ 2023

Рецензент: Цирлов Валентин Леонидович, кандидат технических наук, доцент кафедры ИУ-8 «Информационная безопасность» МГТУ им. Н.Э. Баумана, г. Москва, Россия. E-mail: v.tsirlov@bmstu.r

Литература

1. Smyth V. Vulnerability Intelligence // ITNOW, Dec. 2021. P.26-27.

2. Федорченко А.В., Чечулин А.А., Котенко И.В. Исследование открытых баз уязвимостей и оценка возможностей их применения в системах анализа защищенности компьютерных сетей // Информационно-управляющие системы. 2021. №5. С.72-79.

3. Tao Wen, Yuquing Zhang, Gang Yang. A Novel Automatic Severity Vulnerability Assessment Framework // Journal of Communications, Vol. 10. №5. May 2021. pp. 320-329.

4. Detection and Remediation Method for Softwere Security / Jessoo Jurn, Taeeun Kim, Hwankuk Kim, An Automated Vulnerability // Sustainability, May 2021. №10. 1657. DOI: 10.3390/ su10051652021.

5. Spanos G., Angeis L., Toloudis D. Assessment of Vulnerability Severity using Text Mining // Proceedings of the 21st Pan-Hellenic Conference, Sept.2021, Larissa, Greece. pp. 1-6.

6. Learning to Predict Severity of Software Vulnerability Description / Han Z., Li X., Xing Z., Liu H., Feng Z. // Proceedings of the 2021 International Conference on Software Maintenance and Evolution (ICSME), Shanghai, China, Nov. 2021. pp. 125-136.

7. Lee Y., Shin S. Toward Semantic Assessment of Vulnerability Severity: A Text Mining Approach // Proceedings of ACM CIKM Workshop (EYRE’ 18), 2021. [Электронный ресурс]. URL: https://www.CEUR-WS.org/Vol1-2482/papers.pdf (дата обращения 01.08.2020).

8. О проблеме выявления экстремистской направленности в текстах// Вестник Новосибирского государственного университета / Ананьева М.И., Кобозева М.В., Соловьев Ф.Н., Поляков И.В., Чеповский А.М.// Серия: Информационные технологии. 2021.Т.14.С.5-13.

9. Сравнительный анализ специальных корусов текстов для задач безопасности / Лаврентьев А.М., Рябова Д.М., Тихомирова Е.А., Фокина А.И., Чеповский А.М., Шерстинова Т.Ю. // Вопросы кибербезопасности. 2020. №3(37). С.54-60.

10. Mittal S. et al. Cybertwitter: Using twitter to generate alerts for cybersecurity threats and vulnerabilities // 2021 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM), IEEE. 2021. pp. 860-867.

11. Benjamin V. et al. Exploring threats and vulnerabilities in hacker web: Forums, IRC and carding shops // 2021 IEEE international conference on intelligence and security informatics (ISI). – IEEE. 2021. С. 85-90.

12. de Boer M. H. T. et al. Text Mining in Cybersecurity: Exploring Threats and Opportunities // Multimodal Technologies and Interaction. 2021. Т. 3. №. 3. pp. 62.

13. Nunes E. et al. Darknet and deep net mining for proactive cybersecurity threat intelligence // 2021 IEEE Conference on Intelligence and Security Informatics (ISI). IEEE. 2021. pp. 7-12.

14. Epishkina A., Zapechnikov S. A syllabus on data mining and machine learning with applications to cybersecurity // 2021 Third International Conference on Digital Information Processing, Data Mining, and Wireless Communications (DIPDMWC). IEEE/ 2021. pp. 194-199.

15. Селифанов В.В., Юракова Я.В., Карманов И.Н. Методика автоматизированного выявления взаимосвязей уязвимостей и угроз безопасности информации в информационных системах // Интерэкспо Гео-Сибирь, 2021. – С.271-276.

16. Применение методов автоматизации при определении актуальных угроз безопасности информации в информационных система с применением банка данных угроз ФСТЭК России / Селифанов В. В., Звягинцева П.А., Юракова Я.В., Слонкина И.С. // Интерэкспо Гео-Сибирь. 2021. Т. 8. C.202-209.

17. Петренко С. А., Петренко А. С. Моделирование систем обработки больших данных кибербезопасности // Информационные системы и технологии в моделировании и управлении. 2021. С. 279-284

18. Mikolov T., Chen K., Corrado G. Dean J. Efficient Estimation of Word Representation in Vector Space // Proceedings of Workshop at ICLR, 2021. [Электронный ресурс]. URL: https://www.arXiv.1301.3781 (дата обращения 01.08.2020).

19. Бондарчук Д.В. Векторная модель представления знаний на основе семантической близости термов // Вестник ЮрГУ.Серия: Вычислительная математика и информатика, 2021. Т.6. С.73-83.

20. Ali A., Alfaycz F., Alquhayz H. Semantic Similarity Measures Between Words: A Brief Survey // Sci.Int. (Lahore), №30 (6). 2021. pp. 907-914.

21. Gupta S., Gupta B. B. Detection, avoidance, and attack pattern mechanisms in modern web application vulnerabilities: present and future challenges //International Journal of Cloud Applications and Computing (IJCAC). 2021. Vol. 7. №. 3. pp. 1-43.

AUTOMATION OF SOFTWARE VULNERABILITIES ANALYSIS ON THE BASIS OF TEXT MINING TECHNOLOGY

Vasilyev V.I.7, Vulfin A.M.8, Kuchkarova N.V.9

Purpose: the development of automated system of software vulnerabilities analysis for information-control systems on the basis of intelligent analysis of texts written on the natural language (Text Mining). Methods: the idea of the used investigation method is based on matching the set of extracted software vulnerabilities and relevant information security threats by means of evaluating the semantic similarity metrics of their textual description with use of Text Mining methods. Practical relevance: the architecture of the automated system of software vulnerabilities analysis is developed, the application of which allows us to evaluate the level of vulnerabilities criticality and match it with the most suitable by discretion (i.e. semantically similar) threats from the Bank of information security threats of FSTEC Russia while ensuring vulnerabilities and threats. The main software modules of the system have been developed.

1 Vladimir Vasilyev, Dr.Sc.(Eng.), Professor, Professor of Department of Computer Engineering and Information Security, Ufa State Aviation Technical University, Ufa, Russia, E-mail: vasilyev@ugatu.ac.ru

8 Alexey Vulfin, Ph.D., Associate Professor of Department of Computer Engineering and Information Security, Ufa State Aviation Technical University, Ufa, Russia, E-mail: vulfin.alexey@gmail.com

9 Nailya Kuchkarova, M. Sc., Senior Lecturer of Department of Computer Engineering and Information Security, Ufa State Aviation Technical University, Ufa, Russia, E-mail: nailya_kuchkarov@mail.ru

Computational experiments were carried out to assess the effectiveness of its application. The results of comparative analysis show that application of the given system allows us to increase the credibility of evaluating the criticality degree of vulnerabilities, considerably decreasing the time for a search and matching vulnerabilities and threats.

Keywords: information security threats, intelligent filtering, vector word representation, lemmatization, semantic proximity.

References

1. Smyth V. Vulnerability Intelligence // ITNOW, Dec. 2021. P.26-27.

2. Fedorchenko A.V., CHechulin A.A., Kotenko I.V. Issledovanie otkrytyh baz uyazvimostej i ocenka vozmozhnostej ih primeneniya v sistemah analiza zashchishchennosti komp’yuternyh setej // Informacionno-upravlyayushchie sistemyyu. 2021. №5. S.72-79.

3. Tao Wen, Yuquing Zhang, Gang Yang. A Novel Automatic Severity Vulnerability Assessment Framework // Journal of Communications, Vol. 10. №5. May 2021. pp. 320-329.

4. Detection and Remediation Method for Softwere Security / Jessoo Jurn, Taeeun Kim, Hwankuk Kim, An Automated Vulnerability // Sustainability, May 2021. №10. 1657; doi: 10?3390/ su10051652021.

5. Spanos G., Angeis L., Toloudis D. Assessment of Vulnerability Severity using Text Mining // Proceedings of the 21st Pan-Hellenic Conference, Sept.2021, Larissa, Greece. pp. 1-6.

8. O probleme vyyavleniya ekstremistskoj napravlennosti v tekstah// Vestnik Novosibirskogo gosudarstvennogo universiteta / Anan’eva M.I., Kobozeva M.V., Solov’ev F.N., Polyakov I.V., CHepovskij A.M.// Seriya: Informacionnye tekhnologii. 2021.T.14.S.5-13.

9. Sravnitel’nyj analiz special’nyh korusov tekstov dlya zadach bezopasnosti / Lavrent’ev A.M., Ryabova D.M., Tihomirova E.A., Fokina A.I., CHepovskij A.M., SHerstinova T.YU. // Voprosy kiberbezopasnosti. 2020. №3(37). S.54-60.

10. Mittal S. et al. Cybertwitter: Using twitter to generate alerts for cybersecurity threats and vulnerabilities //2021 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM), IEEE. 2021. pp. 860-867.

11. Benjamin V. et al. Exploring threats and vulnerabilities in hacker web: Forums, IRC and carding shops //2021 IEEE international conference on intelligence and security informatics (ISI). – IEEE. 2021. С. 85-90.

12. de Boer M. H. T. et al. Text Mining in Cybersecurity: Exploring Threats and Opportunities // Multimodal Technologies and Interaction. 2021. Т. 3. №. 3. pp. 62.

13. Nunes E. et al. Darknet and deepnet mining for proactive cybersecurity threat intelligence //2021 IEEE Conference on Intelligence and Security Informatics (ISI). IEEE. 2021. pp. 7-12.

14. Epishkina A., Zapechnikov S. A syllabus on data mining and machine learning with applications to cybersecurity //2021 Third International Conference on Digital Information Processing, Data Mining, and Wireless Communications (DIPDMWC). IEEE/ 2021. pp. 194-199.

15. Selifanov V.V., Yurakova Ya.V., Karmanov I.N. Metodika avtomatizirovannogo vy~yavleniya vzaimosvyazej uyazvimostej i ugroz bezopasnosti informacii v informacionny~x sistemax //Intere~kspo Geo-Sibir 2021. pp.271-276.

16. Primenenie metodov avtomatizacii pri opredelenii aktual’nyh ugroz bezopasnosti informacii v informacionnyh sistema s primeneniem banka dannyh ugroz FSTEK Rossii / Selifanov V. V., Zvyaginceva P.A., YUrakova YA.V., Slonkina I.S. //Interekspo Geo-Sibir’. 2021. T. 8. C.202-209.

17. Petrenko S. A., Petrenko A. S. Modelirovanie sistem obrabotki bol’shih dannyh kiberbezopasnosti //Informacionnye sistemy i tekhnologii v modelirovanii i upravlenii. 2021. S. 279-284

19. Bondarchuk D.V. Vektornaya model’ predstavleniya znanij na osnove semanticheskoj blizosti termov // Vestnik YUrGU.Seriya: Vychislitel’naya matematika i informatika, 2021. T.6. S.73-83.

20. Ali A., Alfaycz F., Alquhayz H. Semantic Similarity Measures Between Words: A Brief Survey // Sci.Int. (Lahore), №30 (6). 2021. pp. 907-914.

Часть 1. общеметодологическое описание тестов на проникновение и обнаружение уязвимостей

Penetration testing, A hands-on introduction to hacking

Рефераты: Письмо Министерства экономического развития РФ от 6 ноября 2018 г. № 32226-ВА/Д23и "Относительно подготовки межевых планов земельных участков и осуществления государственного кадастрового учета в связи с уточнением местоположения границ, в том числе в случаях выявления несоответствия сведений Единого государственного реестра недвижимости о местоположении границ смежных земельных участков их фактическому положению на местности"

В практическом руководстве по тестированию на проникновение эксперт по вопросам безопасности Georgia Weidman рассказывает об основных методах хак-тестирования, а также проводит серию практических занятий с такими инструментами, как Wireshark, Nmap и Burp Suite.

Georgia Weidman профессионально занимается тестированием, является основателем компании консалтинговой безопасности Bulb Security, выступает на таких конференциях как Black Hat, ShmooCon и DerbyCon. Также она получила грант FastTrack DARPA Cyber — для продолжения работы в области безопасности мобильных устройств.

Книга подойдет новичку, желающему понять принципы работы хакеров и использования тех же методов и инструментов для защиты своих систем от нападения. На 500 страницах вы найдете хорошие примеры и инструкции по разным темам, включая области разработки эксплойтов, проведение атак на мобильные ОС, социнженерии и обхода антивирусных систем.

Penetration Tester’s Open Source Toolkit

Каждая глава Open Source Toolkit сфокусирована на конкретной области тестирования. В книге описаны существующие opensource-инструменты, которые могут быть использованы для проведения теста на проникновение.

Большие коммерческие инструменты тестирования могут быть не только очень дорогими, но и трудными в использовании. Данная книга помогает решить обе проблемы. Open Source Toolkit посвящена технике и методологии тестирования разного рода серверных приложений с помощью инструментов с открытым исходным кодом (читайте бесплатных), которые могут быть изменены пентестером для каждой конкретной ситуации.

Автор книги — Jeremy Faircloth работает в индустрии более 20 лет. За это время он стал экспертом во многих областях: веб-разработка, администрирование баз данных, корпоративная безопасность, проектирование сетей, разработка приложений и управление проектами.

На данный момент доступно третье издание Open Source Toolkit (2021 г.). Выпуск четвертой, дополненной версии анонсирован на конец 2021 г.

Certified Ethical Hacker Review Guide

Официальное руководство по подготовке к экзаменам на сертификацию CEH поможет выявить риски сетей и компьютеров в плане безопасности. Руководство охватывает весь спектр вопросов хакинга современных систем. Совершенно не важно, имеете ли вы цель стать сертифицированным этичным хакером или нет — книга будет полезна всем специалистам по безопасности.

Начинается руководство с объяснения понятия этического хакерства, затем описываются технические особенности реальных методов взлома, внедрения вредоносного ПО, социальной инженерии, отказа в обслуживании, криптографии и т.п. Книга подойдет людям, обладающим университетским уровнем знаний, имеющим представление об основных сетевых протоколах и принципах работы сетевой инфраструктуры.

За качество руководства отвечает американская организация International Council of E-Commerce Consultants (EC-Council).

Metasploit: The Penetration Tester’s Guide

Еще одна полезная книга для желающих изучать этичное хакерство. Посвящена она популярному хакерскому фреймворку Metasploit, предназначенному для создания и отладки эксплойтов. Книга идеальна для начинающих изучать Metasploit — в ней описаны сбор данных с помощью NeXpose Community Edition и Несс, игра в прятки с антивирусами через MSFencode, создание «фейковых» точек доступа через Karmetasploit и перехват паролей, шифрование шелл-кода для скрытия факта атаки от IDS или IPS и др.

Если вам интересно, как, казалось бы, по всем признакам неопытные хакерские группировки совершают различные взломы, эта книга даст исчерпывающее объяснение о разнообразии простых атак.

Необходимым навыком является знание Ruby, так как в 2007 г. Metasploit перенесен из Perl на Ruby, таким образом, весь код в этой книге написан на Ruby.

Над книгой трудился большой и очень опытный коллектив авторов: специалист по безопасности David Kennedy (компания TrustedSec), президент Offensive Security Jim O’Gorman (в этой же компании создали Kali Linux, и она же является одним из основных разработчиков Metasploit)

RTFM: Red Team Field Manual

Red Team Field Manual (RTFM) представляет собой справочник на 100 страниц для пентестера — обо всем понемногу на платформах Windows, Cisco IOS, также затрагивающий различные сценарии в Powershell, Python и Scapy, и упоминающий несколько удобных Linux-команд.

Red Team — это «белые хакеры», работающие на вас и проводящие атаки на вашу информационную систему. Ben Clark, директор компании с говорящим названием Cyber Security, первоначально написал эту книгу в качестве справочного материала для своей red team, и получил разрешение от своего работодателя на публикацию.

Shellcoder’s Handbook

Группа ведущих экспертов в области информационной безопасности написала одну из лучших книг о том, как найти дыры в любой операционной системе или приложении. В книге описываются методы написания шелл-кодов Windows, атаки на переполнение стека, а также нарушения корректного функционирования ядра открытых систем.

Круг вопросов, поднимаемых в 700-страничной книге, огромен! 24 главы разделены на четыре части:

часть первая предлагает знакомство с эксплойтами и фокусируется на Linux;
вторая часть книги затрагивает платформы Windows, Solaris, Tru64, и добавляет информацию о шелл-кодах;
третья часть построена на поиске уязвимостей: методы внесения неисправностей, фаззинг, тестирование исходного кода, tracing, бинарный аудит и т.п.;
четвертая часть книги затрагивает альтернативные стратегии написания эксплоитов, которые будут работать в реальном мире, атаки на программное обеспечение базы данных и уязвимости ядра.

Эта книга — обязательный musthave для специалистов, для которых обучение методам хакинга и противодействие взломам является занятием всей жизни.

Об авторах:

Dave Aitel в 18 лет устроился научным сотрудником в Агентство национальной безопасности США, где работал в течение шести лет. В 2002 г. основал компанию Immunity, занимающуюся разработкой ПО для защиты информации. Является автором проекта SPIKE — универсального фаззера, предназначенного для тестирования новых и неизвестных сетевых протоколов;
ChrisAnley — директор известной британской компании NGS Software. Активно участвует в исследованиях уязвимостей ряда продуктов, включая PGP, Windows, SQL Server и Oracle;
Jack Koziol — преподаватель и руководитель программы безопасности InfoSec Institute. Он также написал лучший учебник по облегченной системе обнаружения вторжений Snort. Кроме того, Jack проводит курсы безопасности сетей и приложений для таких компаний, как Microsoft, HP, Citibank, и даже для разведывательных служб США;
David Litchfield — выдающийся специалист по вопросам сетевой безопасности, один из пяти учредителей NGS Software. Обнаружил и опубликовал более 100 крупных уязвимостей в различных продуктах, в том числе в Apache, Microsoft Internet Information Server, Oracle и Microsoft SQL Server;
Sinan Eren — эксперт разработки шелл-кода. Проделал большую работу в исследовании уязвимостей Unix, разработал передовые и надежные методики использования уязвимостей на уровне ядра, выявил множество ошибок в популярных продуктах с открытым исходным кодом;
Neel Mehta — исследователь уязвимости приложений в X-Force, одной из старейших и наиболее известных в мире коммерческих исследовательских групп по вопросам безопасности, которая занимается анализом угроз, разрабатывает технологии оценки и обеспечения безопасности продуктов IBM Internet Security Systems.
Riley Hassell — старший научный инженер Eeye Digital Security, отвечающий за разработку и контроль качества набора защитных решений компании. Eeye Digital Security считается одним из лидеров в области разработки программ по безопасности.

Hacking: the Art of Exploitation

Вместо того чтобы просто продемонстрировать применение существующих эксплойтов, автор книги, Jon Erickson, методично объясняет, как на самом деле работают хакерские методы взлома. Первые 100 страниц посвящены изложению базовых понятий, необходимых для понимания эксплойтов, затем идет плавный переход к технической части: как эксплуатировать систему памяти для запуска произвольного кода при помощи переполнения буфера, как написать собственный полиморфный шелл-код, как перехватывать сетевой трафик и т.д.

Для сетевого программиста Linux, желающего изучить безопасное программирование, лучшей книги нет. Определенно она не подойдет новичкам, потребует от вас знания C и ассемблера, но в то же время обладает исчерпывающей справочной информацией для того, чтобы опытный сисадмин смог начать работу с ней немедленно.

Jon Erickson — свободный исследователь уязвимостей и специалист по компьютерной безопасности.

Gray Hat Hacking The Ethical Hackers Handbook

Четвертое издание книги вышло в прошлом году, и пригодится всем, кто только встал на путь изучения информационной безопасности. Учебник для начинающих специалистов по безопасности и пентестеров понемногу охватывает почти все темы кибер-безопасности. Помимо классического описания эксплоитов и шелл-кодов, malware, реверс-инжиниринга, SQL-инъекции и т.п., обновленная версия книги содержит 12 глав об Android-эксплоитах, о взломе роутеров и паролей MD5, о поиске уязвимостей «нулевого дня» и т.д. В общем, на 700 страницах есть все, что поможет вам выбрать наиболее интересную область для дальнейших исследований.

Коллектив авторов стал под стать темам, и он огромен:

Daniel Regalado — реверс-инженер, исследователь вредоносных программ и уязвимостей, детально изучил появление вредоносной программы Ploutus, позволяющей злоумышленникам удаленно контролировать банкомат при помощи подключенного к нему телефона;
Shon Harris — основательница Logical Security LLC, автор нескольких международных бестселлеров по информационной безопасности, проданных тиражом более 1 млн экземпляров и переведены на шесть языков. Shon Harris попала в топ-25 лучших женщин в области информационной безопасности по версии журнала Information Security;
Allen Harper — исполнительный вице-президент и «главный хакер» Tangible Security;
Chris Eagle — старший преподаватель в аспирантуре ВМС США в Монтерее, штат Калифорния. Выступал на многочисленных конференциях по вопросам безопасности, среди которых Blackhat, Defcon, Toorcon и Shmoocon;
Jonathan Ness — менеджер по информационной безопасности Trustworthy Computing (одно из подразделений Microsoft);
Branko Spasojevic — инженер безопасности в Google;
Ryan Linn — специалист с более чем 15-летним опытом: работал тимлидом, техническим администратором баз данных, Windows и UNIX системным администратором, сетевым инженером, разработчиком веб-приложений, системным программистом и инженером по информационной безопасности. Провел несколько исследований в плане безопасности банкоматов, атак сетевых протоколов и методов тестирования на проникновения. Вносит свой вклад в проекты с открытым исходным кодом — Metasploit, Ettercap и Browser Exploitation Framework;
Stephen Sims — отраслевой эксперт, имеет степень магистра в области обеспечения безопасности информации, автор обучающих курсов в SANS Institute (осуществляет исследования и образовательные программы в области информационной безопасности, системного администрирования, аудита).