🧧 Компьютерная экспертиза ПО на предмет плагиата

В современной инженерной практике разработки программного обеспечения проблема защиты интеллектуальной собственности приобретает критическое значение. Недобросовестные разработчики, стремясь минимизировать временные и финансовые затраты, нередко прибегают к копированию или переработке существующих программных решений без разрешения правообладателей. При этом современные технологии позволяют достаточно легко модифицировать заимствованный код: изменять имена переменных, переставлять функции, добавлять незначительные блоки, применять обфускацию, что существенно затрудняет визуальное обнаружение плагиата. В таких условиях единственным объективным способом установления факта незаконного заимствования становится инструментальное исследование, основанное на применении специализированных инженерных методов анализа. Настоящая статья посвящена комплексному рассмотрению компьютерная экспертиза ПО на предмет плагиата как инженерно-технической дисциплины, включающей методологию, алгоритмические подходы, программные инструменты и критерии оценки результатов.

Актуальность темы обусловлена стремительным ростом числа судебных споров, связанных с нарушением исключительных прав на программы для электронно-вычислительных машин. Согласно статистике арбитражных судов, количество дел о защите интеллектуальной собственности на программное обеспечение увеличивается ежегодно, причем значительная часть таких споров требует назначения экспертизы для установления факта заимствования кода. Инженерная сложность подобных исследований заключается в необходимости выявления заимствований на фоне возможных модификаций, обфускации, переписывания кода на других языках программирования, изменения архитектурных решений.

Настоящая статья подготовлена АНО «Центр инженерных экспертиз» и представляет собой систематизированное изложение инженерных методов и технических средств, применяемых при проведении, компьютерная экспертиза ПО на предмет плагиата. Рассматриваются классификация видов плагиата, математические основы методов сравнения, архитектура инструментальных средств, критерии оценки результатов, а также процессуальные аспекты представления экспертных заключений в судебных инстанциях.

Глава 1. Инженерная классификация видов плагиата программного обеспечения

1. Понятие и техническая сущность программного плагиата

С инженерной точки зрения, компьютерная экспертиза ПО на предмет плагиата исследует явление, при котором один программный продукт создается с использованием интеллектуальных компонентов другого продукта без соблюдения правовых оснований. Техническая сущность плагиата заключается в заимствовании охраняемых элементов программы: исходного кода, алгоритмов, структур данных, архитектурных решений, пользовательских интерфейсов.

В отличие от текстовых произведений, где плагиат относительно легко выявляется методами текстового сравнения, программный код обладает структурной сложностью, иерархичностью, наличием множества уровней абстракции, что требует применения специализированных инженерных подходов.

2. Классификация видов плагиата по глубине модификации

В инженерной практике выделяют следующие типы клонов кода, соответствующие различным видам плагиата:

Тип 1 (идентичный код). Полное копирование без изменений либо с незначительными изменениями форматирования, добавлением или удалением комментариев. Данный тип наиболее прост для обнаружения и выявляется стандартными инструментами текстового сравнения.

Тип 2 (изменения в именах). Копирование с изменениями в именах идентификаторов (переменных, функций, классов) и литералов. При этом структура кода и последовательность операторов сохраняются. Для обнаружения требуются методы нормализации кода и сравнения абстрактных синтаксических деревьев.

Тип 3 (модифицированный код). Копирование с добавлением или удалением отдельных строк, изменением порядка следования функций, разбиением или объединением блоков кода. Требует применения алгоритмов нечеткого сравнения и анализа графовых структур.

Тип 4 (семантические клоны). Различный по синтаксису код, выполняющий ту же функциональность. Наиболее сложный для обнаружения вид плагиата, требующий семантического анализа, сравнения алгоритмов и поведенческого тестирования.

3. Классификация по объектам заимствования

Компьютерная экспертиза ПО на предмет плагиата также классифицирует нарушения по объектам заимствования:

Прямое копирование кода. Заимствование исходного кода целиком, отдельными модулями или функциями.

Структурный плагиат. Копирование архитектуры программы, иерархии классов, схем взаимодействия модулей, паттернов проектирования.

Алгоритмический плагиат. Заимствование алгоритмов обработки данных, методов оптимизации, математических моделей.

Концептуальный плагиат. Воспроизведение бизнес-логики, пользовательских сценариев, интерфейсных решений.

Гибридный плагиат. Комбинация различных видов заимствований, часто применяемая для маскировки нарушений.

Глава 2. Математические основы методов выявления заимствований

1. Теоретико-множественные подходы

Базовым математическим аппаратом для количественной оценки сходства кода являются метрики, основанные на теории множеств. При проведении компьютерная экспертиза ПО на предмет плагиата применяются следующие коэффициенты:

Коэффициент Жаккара. Рассчитывается как отношение мощности пересечения множеств элементов к мощности их объединения:

j(A,B) = |A ∩ B| / |A ∪ B|

Диапазон значений от 0 до 1, где 1 соответствует полному совпадению множеств.

Коэффициент Сёренсена-Дайса. Учитывает размеры множеств и вычисляется по формуле:

sd(A,B) = 2|A ∩ B| / (|A| + |B|)

Косинусное сходство. Применяется при векторном представлении кода и определяется как косинус угла между векторами:

cos(θ) = A·B / (||A|| × ||B||)

2. Алгоритмы сравнения строк и последовательностей

Алгоритм шинглов. Текст программы разбивается на перекрывающиеся подстроки фиксированной длины (шинглы). Для каждого шингла вычисляется хеш-функция, и полученные множества хешей сравниваются между собой.

Расстояние Левенштейна. Метрика, показывающая минимальное количество операций вставки, удаления и замены символов, необходимых для преобразования одной строки в другую. Применяется для оценки степени различия кода.

Алгоритм Рабина-Карпа. Используется для поиска точных совпадений подстрок с применением скользящего хеша, что обеспечивает линейную сложность алгоритма.

3. Графовые методы

Представление программы в виде графовых структур позволяет выявлять заимствования на уровне архитектуры и логики, игнорируя синтаксические различия:

Абстрактное синтаксическое дерево. Представляет синтаксическую структуру программы. Узлами дерева являются конструкции языка (операторы, выражения, объявления), ребрами — отношения вложенности. Сравнение AST позволяет выявлять структурные заимствования.

Граф потока управления. Отражает последовательность выполнения программы. Узлы соответствуют базовым блокам, ребра — переходам между ними. Сравнение CFG выявляет сходство в логике выполнения.

Граф зависимостей программы. Объединяет зависимости по данным и по управлению. PDG позволяет анализировать семантическую эквивалентность программ.

4. Статистические методы

Метрический анализ. Программа характеризуется набором числовых метрик: объем кода, цикломатическая сложность Мак-Кейба, глубина вложенности, связность модулей, зацепление. Статистическое сравнение метрик позволяет выявлять аномальные совпадения характеристик.

N-граммный анализ. Последовательность токенов разбивается на N-граммы, частоты которых анализируются статистическими методами для выявления неслучайных совпадений.

Глава 3. Архитектура инструментальных средств экспертизы

1. Общая структура системы анализа

Типовая система для проведения компьютерная экспертиза ПО на предмет плагиата включает следующие компоненты:

Модуль загрузки и предобработки. Осуществляет получение исходного кода, нормализацию форматирования, удаление комментариев, подготовку к анализу.

Модуль лексического анализа. Производит токенизацию кода — разбиение на лексемы (ключевые слова, идентификаторы, операторы, литералы).

Модуль синтаксического анализа. Строит абстрактное синтаксическое дерево на основе грамматики языка программирования.

Модуль семантического анализа. Исследует зависимости данных и потоки управления, строит графовые представления.

Модуль сравнения. Реализует алгоритмы сопоставления кода на различных уровнях абстракции.

Модуль визуализации. Представляет результаты анализа в наглядной форме: таблицы совпадений, цветовая разметка кода, диаграммы сходства.

Модуль генерации отчетов. Формирует экспертное заключение с документальным оформлением результатов.

2. Парсеры и генераторы абстрактных синтаксических деревьев

Ключевым компонентом любой системы анализа кода является парсер, преобразующий исходный текст в структурированное представление. Для различных языков программирования применяются специализированные инструменты:

ANTLR. Генератор парсеров, поддерживающий множество языков. Позволяет строить AST по заданной грамматике.

Tree-sitter. Инкрементальный парсер, обеспечивающий высокую производительность и возможность работы с частично некорректным кодом.

Esprima, Acorn. Парсеры для языка JavaScript, широко применяемые при анализе веб-приложений.

Roslyn. Платформа компиляторов. NET, предоставляющая полный доступ к синтаксическим и семантическим моделям кода C# и Visual Basic.

Clang. Фронтенд для языков семейства C, включающий мощные возможности статического анализа.

3. Специализированные детекторы плагиата

Для проведения компьютерная экспертиза ПО на предмет плагиата разработаны специализированные программные системы:

MOSS (Measure of Software Similarity). Онлайн-сервис Стэнфордского университета, широко применяемый в академической среде. Использует алгоритм шинглов и устойчив к переименованию идентификаторов и изменению форматирования.

JPlag. Система для обнаружения плагиата в Java, C#, C, C++, Python и других языках. Применяет сравнение AST и алгоритмы нечеткого сопоставления.

SIM. Инструмент для измерения сходства программ, работающий на уровне строк и токенов.

Plague. Детектор плагиата для языков C и C++, использующий структурные метрики.

Codequiry. Коммерческая система для анализа исходного кода с поддержкой множества языков.

Deckard. Инструмент для обнаружения клонов типа 3 и 4, применяющий методы машинного обучения.

NiCad. Система для выявления клонов типа 3, основанная на нормализации кода и текст-майнинге.

4. Инструменты статического анализа общего назначения

Общего назначения также могут эффективно применяться при проведении компьютерная экспертиза ПО на предмет плагиата:

SonarQube. Платформа непрерывного анализа качества кода, включающая обнаружение дублированного кода.

Checkmarx. Инструмент для статического анализа безопасности, способный выявлять подозрительные паттерны.

Fortify. Коммерческий анализатор кода с функциями обнаружения клонов.

ESLint. Линтер для JavaScript, допускающий создание пользовательских правил для поиска специфических паттернов.

Глава 4. Многоуровневая методология экспертного исследования

1. Подготовительный этап

Компьютерная экспертиза ПО на предмет плагиата начинается с тщательной подготовки, включающей следующие действия:

Изучение материалов дела. Эксперт знакомится с документацией: договора ми, лицензионными соглашениями, актами приема-передачи, перепиской сторон.

Формирование экспертной группы. В зависимости от сложности исследования и используемых языков программирования привлекаются эксперты соответствующей специализации.

Определение объема исследования. Устанавливается, какие компоненты программ подлежат сравнению, анализируется полнота предоставленных исходных кодов.

Планирование исследования. Разрабатывается детальный план с указанием этапов, применяемых методов, сроков выполнения.

2. Предварительный анализ

На данном этапе проводится первичная оценка сходства, выявление очевидных признаков заимствования:

Визуальный осмотр кода. Эксперт просматривает структуру файлов, организацию проекта, наличие характерных комментариев, сигнатуры функций.

Сравнение метаданных. Анализируются даты создания файлов, информация о компиляции, пути к исходным файлам, имена авторов в метаданных.

Обнаружение явных копий. Поиск файлов с идентичным содержимым, одинаковыми контрольными суммами.

Выявление специфических идентификаторов. Поиск уникальных, нестандартных имен переменных, функций, классов, характерных для исходной программы.

3. Лексический и токенизированный анализ

На этом уровне код преобразуется в последовательности токенов, которые сравниваются с применением различных алгоритмов:

Токенизация кода. Исходный текст разбивается на лексемы: ключевые слова, идентификаторы, операторы, разделители, литералы.

Нормализация токенов. Идентификаторы заменяются унифицированными метками (VAR, FUNC, CLASS), литералы — обобщенными типами (STRING, NUMBER, BOOLEAN).

Сравнение последовательностей. Полученные последовательности сравниваются алгоритмами поиска общих подпоследовательностей, вычисляется процент совпадения.

Анализ n-грамм. Последовательности разбиваются на n-граммы, частоты которых сравниваются статистическими методами.

Преимуществом данного уровня является скорость обработки и независимость от синтаксических вариаций. Недостатком — потеря структурной информации и чувствительность к изменению порядка выполнения.

4. Синтаксический анализ с использованием AST

Центральным методом современной компьютерная экспертиза ПО на предмет плагиата является сравнение абстрактных синтаксических деревьев:

Построение AST. Для каждого файла исходного кода с помощью парсера строится абстрактное синтаксическое дерево.

Нормализация AST. Выполняется обобщение узлов: замена конкретных значений на абстрактные типы, унификация идентификаторов.

Хеширование поддеревьев. Для каждого узла вычисляется хеш, учитывающий структуру поддерева. Совпадающие хеши указывают на идентичные фрагменты кода.

Сравнение деревьев. Применяются алгоритмы вычисления расстояния редактирования деревьев (tree edit distance), позволяющие оценить минимальное количество операций вставки, удаления и замены узлов для преобразования одного дерева в другое.

Поиск изоморфных поддеревьев. Выявляются структурно эквивалентные фрагменты кода.

Кластеризация схожих поддеревьев. Группировка структурно близких фрагментов для выявления заимствований с модификациями.

Методы AST позволяют выявлять плагиат типов 2 и 3, устойчивы к переименованию идентификаторов, изменению форматирования, добавлению незначительных блоков.

5. Семантический анализ с использованием графов

Для выявления сложных заимствований, включая семантические клоны, применяются графовые методы:

Построение графа потока управления. На основе AST строится CFG, отражающий последовательность выполнения базовых блоков.

Построение графа зависимостей программы. Анализируются зависимости по данным и по управлению, формируется PDG.

Сравнение графов. Применяются алгоритмы проверки изоморфизма графов и поиска общих подграфов.

Анализ путей выполнения. Сравниваются возможные пути выполнения программы, выявляются структурные паттерны.

Векторизация графов. Графовые структуры преобразуются в векторные представления с использованием графовых нейронных сетей.

Семантический анализ позволяет выявлять плагиат типа 4, когда код переписан с использованием других синтаксических конструкций, но сохраняет ту же логику.

6. Динамический анализ поведения

В случаях, когда исходный код недоступен или требуется дополнительная проверка, применяются методы динамического анализа:

Трассировка выполнения. Программы запускаются с одинаковыми входными данными, записывается последовательность вызовов функций, обращений к памяти, системных вызовов.

Сравнение результатов. Анализируется идентичность выходных данных при одинаковых входных.

Профилирование производительности. Сравниваются временные характеристики, потребление памяти, паттерны использования ресурсов.

Анализ сетевого взаимодействия. Исследуются сетевые запросы, форматы передаваемых данных.

Динамический анализ особенно важен при исследовании скомпилированных программ, когда исходный код отсутствует.

7. Анализ алгоритмов и структур данных

Для выявления заимствования алгоритмических решений применяются специализированные методы:

Идентификация алгоритмов. Распознавание известных алгоритмов в коде по характерным паттернам.

Анализ сложности. Оценка временной и пространственной сложности, сравнение с эталонными реализациями.

Сравнение структур данных. Анализ используемых структур (списки, деревья, хеш-таблицы), их организации и методов доступа.

Криптоанализ. При исследовании программ, использующих шифрование, сравниваются криптографические примитивы.

8. Метрический анализ и статистические методы

Дополнительную информацию предоставляет анализ метрик программного кода:

Цикломатическая сложность Мак-Кейба. Количество линейно независимых путей в программе. Аномально близкие значения могут указывать на заимствование.

Метрики Холстеда. Оценивают словарь программы, длину, объем, сложность.

Количество функций и классов. Общие структурные характеристики.

Глубина наследования. Для объектно-ориентированных программ.

Связность модулей и зацепление. Архитектурные метрики.

Статистическое сравнение метрик позволяет выявить программы, имеющие неестественно близкие характеристики.

Глава 5. Критерии оценки результатов экспертизы

1. Количественные критерии

При проведении компьютерная экспертиза ПО на предмет плагиата используются следующие количественные показатели:

Процент совпадающего кода. Отношение количества строк (токенов, узлов AST), признанных заимствованными, к общему объему кода.

Коэффициент покрытия. Доля функций или модулей, содержащих совпадения.

Длина совпадающих фрагментов. Распределение длин непрерывных совпадений.

Пороговые значения. В экспертной практике обычно применяются следующие ориентиры:

Менее 10% совпадений — допустимый уровень (возможны случайные совпадения, использование стандартных библиотек).
10-30% — подозрительный уровень, требует анализа характера совпадений.
30-50% — высокий уровень, свидетельствует о вероятном заимствовании.
Более 50% — практически бесспорное доказательство плагиата.

2. Качественные критерии

Количественные показатели всегда дополняются качественным анализом:

Уникальность совпадающих фрагментов. Совпадения в реализации стандартных алгоритмов (сортировка, поиск) менее значимы, чем совпадения в уникальной бизнес-логике.

Наличие идентичных ошибок. Обнаружение одинаковых ошибок в двух программах является сильным признаком заимствования.

Совпадения в комментариях. Идентичные комментарии, особенно содержащие специфические формулировки, практически не оставляют сомнений в плагиате.

Совпадения в именах. Если обе программы используют одинаковые нестандартные имена переменных и функций, это указывает на заимствование.

Структурные аномалии. Одинаковые необычные архитектурные решения, не диктуемые требованиями.

Программистский почерк. Сходство в стиле кодирования, использовании идиом, предпочтении определенных конструкций.

3. Статистическая значимость

Эксперт должен оценить статистическую значимость выявленных совпадений:

Вероятность случайного совпадения. Оценивается с учетом объема кода, используемых языковых конструкций, распространенности алгоритмов.

Анализ фонового уровня. Сравнение с типичным уровнем совпадений в независимо разработанных программах аналогичного класса.

Контрольные примеры. При возможности проводится тестирование на заведомо независимых программах для определения базового уровня сходства.

Глава 6. Типовые вопросы, решаемые экспертизой

При назначении компьютерная экспертиза ПО на предмет плагиата перед экспертом могут быть поставлены следующие вопросы:

Имеется ли сходство (тождество) между программным обеспечением «Название ПО Ответчика» и программным обеспечением «Название ПО Истца», исключительные права на которое принадлежат истцу? Если имеется, то в чем конкретно это сходство выражается?
Содержатся ли в исходном коде программного обеспечения «Название ПО Ответчика» фрагменты, тождественные или сходные до степени смешения с фрагментами исходного кода программного обеспечения «Название ПО Истца»? Если да, то каков объем такого заимствования (процентное соотношение, количество строк кода, количество функций)?
Является ли программное обеспечение «Название ПО Ответчика» переработкой (модификацией) программного обеспечения «Название ПО Истца», либо оно создано независимо?
Имеются ли в программном обеспечении «Название ПО Ответчика» уникальные идентификаторы (характерные последовательности символов, неисполняемые фрагменты, специфические названия функций, характерные ошибки), ранее присутствовавшие только в программном обеспечении «Название ПО Истца»?
Соответствует ли структура (архитектура) программного обеспечения «Название ПО Ответчика» структуре (архитектуре) программного обеспечения «Название ПО Истца»? Если да, то в какой степени?
Использовались ли при создании программного обеспечения «Название ПО Ответчика» алгоритмы, реализованные в программном обеспечении «Название ПО Истца», без разрешения правообладателя?
Имеются ли в программном обеспечении «Название ПО Ответчика» признаки намеренного искажения (обфускации) кода с целью сокрытия фактов заимствования из других программных продуктов?
Подтверждается ли факт использования программного обеспечения «Название ПО Истца» при создании программного обеспечения «Название ПО Ответчика» данными динамического анализа (поведением программ, результатами выполнения, трассировкой)?
Каков процент уникального кода в программном обеспечении «Название ПО Ответчика» по отношению к программному обеспечению «Название ПО Истца»?

Глава 7. Инженерные методы противодействия обфускации

1. Виды обфускации, применяемые для сокрытия плагиата

Недобросовестные разработчики применяют различные техники обфускации (запутывания) кода, чтобы затруднить компьютерная экспертиза ПО на предмет плагиата:

Лексическая обфускация. Переименование идентификаторов в бессмысленные или однотипные имена, удаление комментариев, изменение форматирования.

Структурная обфускация. Изменение порядка следования функций, разбиение функций на более мелкие, объединение функций, вставка «мертвого» кода (неисполняемых или избыточных операций).

Контрольная обфускация. Добавление лишних проверок условий, изменение логики циклов, использование косвенных переходов.

Обфускация данных. Преобразование структур данных, изменение способов представления информации.

Криптографическая обфускация. Шифрование частей кода с расшифровкой во время выполнения.

2. Методы нормализации обфусцированного кода

Эксперт применяет методы нормализации для восстановления структуры кода и выявления заимствований даже при наличии обфускации:

Удаление «мертвого» кода. Анализ достижимости операций, удаление фрагментов, которые никогда не выполняются или не влияют на результат.

Восстановление структуры. Обратные преобразования для устранения избыточных конструкций.

Символическое выполнение. Анализ всех возможных путей выполнения с определением итогового эффекта программы независимо от способа реализации.

Константная пропагация. Вычисление значений константных выражений для упрощения кода.

Профилирование выполнения. Выявление реально исполняемых фрагментов.

3. Устойчивость методов анализа к обфускации

Различные методы анализа обладают разной устойчивостью к обфускации:

Лексический анализ крайне чувствителен к переименованию и изменению форматирования.
AST-сравнение устойчиво к лексической обфускации, но может быть затруднено структурными изменениями.
Графовые методы сохраняют эффективность при структурной обфускации, если сохраняется логика.
Семантический анализ наиболее устойчив, так как ориентирован на поведение программы.

Глава 8. Документирование результатов экспертизы

1. Структура экспертного заключения

Результаты компьютерная экспертиза ПО на предмет плагиата оформляются в виде письменного заключения, имеющего следующую структуру:

Вводная часть. Содержит данные об эксперте, основании проведения экспертизы, поставленных вопросах, предоставленных материалах.

Исследовательская часть. Включает подробное описание проведенных исследований: примененные методы, использованные инструменты, промежуточные результаты, выявленные совпадения.

Выводы. Четкие и недвусмысленные ответы на каждый из поставленных вопросов с указанием выявленных фактов и их количественной оценкой.

Приложения. Включают распечатки кода с выделением совпадающих фрагментов, таблицы сравнения, графические схемы, скриншоты, видеозаписи процесса тестирования.

2. Требования к описанию методов

Исследовательская часть должна содержать обоснование выбора методов и их научную состоятельность:

Указываются конкретные алгоритмы и инструменты, примененные при анализе.
Описываются параметры настройки инструментов.
Приводятся промежуточные результаты на каждом этапе.
Объясняется интерпретация полученных количественных показателей.

3. Визуализация результатов

Для наглядности выводов используются различные способы визуализации:

Цветовая разметка кода: разными цветами выделяются совпадающие, модифицированные и уникальные фрагменты.
Графовые схемы: визуализация сравниваемых структур.
Тепловые карты: отображение плотности совпадений по модулям программы.
Диаграммы сходства: графическое представление степени сходства на различных уровнях.

Глава 9. Инженерные аспекты взаимодействия с судебной системой

1. Подготовка материалов для суда

При представлении результатов компьютерная экспертиза ПО на предмет плагиата в суде необходимо учитывать следующие инженерные аспекты:

Обеспечение воспроизводимости. Все использованные инструменты и их настройки должны быть задокументированы таким образом, чтобы другой эксперт мог повторить исследование.

Сохранение доказательств. Исследуемые копии программ должны быть зафиксированы с использованием методов, гарантирующих неизменность (контрольные суммы, нотариальное заверение).

Подготовка пояснений. Эксперт должен быть готов в доступной форме объяснить суду суть примененных методов и значение полученных результатов.

2. Ответы на вопросы суда и сторон

В судебном заседании эксперт может столкнуться с вопросами, требующими разъяснения инженерных аспектов исследования:

Почему выбран тот или иной метод анализа?
Каковы пределы погрешности используемых инструментов?
Могли ли совпадения быть случайными?
Учитывалось ли использование стандартных библиотек?
Какие меры приняты для исключения ложных срабатываний?

3. Взаимодействие с техническими специалистами сторон

При наличии у противоположной стороны собственных технических специалистов возможны дискуссии по методологическим вопросам. Эксперт должен быть готов аргументированно отстаивать корректность примененных методов и обоснованность выводов.

Глава 10. Примеры из инженерной практики

1. Выявление плагиата с переименованием идентификаторов

Исходные данные. Истец разработал программу автоматизации складского учета. Ответчик создал программу аналогичного назначения. Визуально коды отличались, однако истец заподозрил заимствование.

Примененные методы. Был проведен анализ AST с нормализацией идентификаторов, сравнение структурных метрик, анализ программистского почерка.

Результаты. Выявлено совпадение структуры ключевых модулей на 80% после нормализации. Обнаружены одинаковые нестандартные алгоритмы обработки данных. Установлено совпадение стиля кодирования с программой истца.

Вывод. Программа ответчика признана переработкой программы истца.

2. Обнаружение плагиата с добавлением «шума»

Исходные данные. Разработчик утверждал, что программа создана самостоятельно. Истец указывал на наличие в коде фрагментов, идентичных его программе, но с добавлением лишних операций.

Примененные методы. Применен алгоритм поиска длинных общих подпоследовательностей, анализ CFG, удаление «мертвого» кода.

Результаты. После удаления неисполняемых операций выявлена идентичность ключевых алгоритмов. Установлено, что добавленный код не влияет на функциональность и служит для маскировки заимствования.

Вывод. Подтвержден факт плагиата с намеренной маскировкой.

3. Сложный случай с переписыванием на другом языке

Исходные данные. Исходная программа была написана на C++. Программа ответчика — на Java. Прямое сравнение кода невозможно.

Примененные методы. Проведен анализ алгоритмов и структур данных, построение и сравнение PDG, функциональное тестирование, анализ документации.

Результаты. Выявлена идентичность алгоритмов обработки данных, совпадение структур данных, одинаковые форматы файлов. Динамическое тестирование показало идентичное поведение при одинаковых входных данных.

Вывод. Установлен факт заимствования алгоритмических решений, программа признана переработкой.

Глава 11. Сложности и ограничения инженерных методов

1. Технические ограничения

Компьютерная экспертиза ПО на предмет плагиата имеет ряд объективных технических ограничений:

Зависимость от полноты исходных данных. При отсутствии исходного кода одной из программ возможности анализа существенно ограничиваются.

Различия в языках программирования. Сравнение программ, написанных на разных языках, требует более сложных методов и не всегда возможно.

Использование стандартных библиотек. Необходимо отличать заимствование кода от легитимного использования общедоступных библиотек.

Размер кода. Анализ очень больших программ (миллионы строк) требует значительных вычислительных ресурсов.

2. Методологические сложности

Разграничение допустимого и недопустимого заимствования. Не любое сходство является плагиатом. Совпадения могут быть обусловлены стандартными решениями, требованиями совместимости, общими алгоритмами.

Определение пороговых значений. Не существует универсальных пороговых значений, однозначно указывающих на плагиат. Требуется качественный анализ.

Учет эволюции кода. При длительной разработке код может изменяться, что затрудняет установление первоначального источника.

3. Пути преодоления ограничений

Для повышения достоверности результатов рекомендуется:

Применять комплекс различных методов анализа.
Использовать несколько независимых инструментов.
Проводить перекрестную проверку результатов.
Привлекать нескольких экспертов.
Документировать все этапы исследования.

Глава 12. Перспективы развития инженерных методов

1. Применение машинного обучения

Современные исследования показывают перспективность применения методов машинного обучения для выявления плагиата:

Code2Vec, CodeBERT. Модели для преобразования кода в векторные представления (эмбеддинги), позволяющие оценивать семантическое сходство.

Графовые нейронные сети. Анализ графовых представлений программ для выявления структурных заимствований.

Обучение на примерах. Создание обучающих выборок из известных случаев плагиата для тренировки моделей.

2. Автоматизация экспертных процедур

Развитие инструментария позволяет автоматизировать многие рутинные операции:

Автоматическое построение отчетов.
Интеграция различных инструментов в единые платформы.
Создание баз данных эталонных решений для сравнения.

3. Стандартизация методологии

Важным направлением является разработка отраслевых стандартов проведения компьютерная экспертиза ПО на предмет плагиата, включающих:

Унифицированные требования к инструментам.
Типовые методики исследования.
Критерии оценки результатов.
Форматы представления заключений.

Заключение

Проведенное исследование позволяет сформулировать ряд выводов относительно инженерных аспектов компьютерная экспертиза ПО на предмет плагиата.

Во-первых, выявление плагиата в программном обеспечении представляет собой сложную инженерную задачу, требующую применения комплекса методов анализа: от лексического до семантического, от статического до динамического. Каждый метод имеет свою область применения, преимущества и ограничения, и только их совместное использование позволяет получить достоверные результаты.

Во-вторых, современная методология базируется на математическом аппарате теории множеств, теории графов, статистического анализа, а также на специализированных алгоритмах сравнения строк, деревьев и графов. Ключевую роль играют абстрактные синтаксические деревья, графы потока управления и графы зависимостей программ.

В-третьих, инструментальная база включает как специализированные детекторы плагиата (MOSS, JPlag, SIM), так и инструменты общего назначения (парсеры, анализаторы кода, системы статического анализа). Важным требованием является возможность документирования всех этапов исследования для обеспечения воспроизводимости результатов.

В-четвертых, интерпретация результатов требует не только количественных оценок, но и качественного анализа, учитывающего уникальность совпадающих фрагментов, наличие идентичных ошибок, совпадения в комментариях, программистский почерк. Статистическая значимость выявленных совпадений должна оцениваться с учетом фонового уровня и вероятности случайного совпадения.

В-пятых, эксперту необходимо владеть методами противодействия обфускации, поскольку недобросовестные разработчики активно применяют техники запутывания кода для сокрытия заимствований. Нормализация кода, удаление «мертвых» фрагментов, символическое выполнение позволяют выявлять плагиат даже при наличии таких искажений.

АНО «Центр инженерных экспертиз» обладает всеми необходимыми компетенциями для проведения компьютерной экспертизы ПО на предмет плагиата на высочайшем профессиональном уровне. Наши эксперты имеют многолетний опыт в области разработки программного обеспечения, владеют современными методами анализа кода, знакомы с алгоритмическими подходами и инструментальными средствами, применяемыми в мировой практике. Мы гарантируем объективность, научную обоснованность и процессуальную корректность наших заключений.

Обращение к профессиональным экспертам при подозрении на плагиат программного обеспечения позволяет получить объективное подтверждение факта нарушения, сформировать доказательственную базу для судебного разбирательства и защитить интеллектуальные права разработчика. Компьютерная экспертиза ПО на предмет плагиата является надежным инструментом защиты интеллектуальной собственности в сфере информационных технологий.