英ソフォスは、四つの新しいオープンなAI(人工知能)関連開発を進めていることを発表した。

 今回発表したのは、「マルウェア検出研究を加速するSOREL-20Mデータセット」「AIを活用した、なりすましの防止手法」「検出されなかったマルウェアを見極めるデジタル疫学」「YaraML自動シグネチャ生成ツール」。この四つの開発により、業界の協業と技術革新の蓄積を促進するために設計されたデータセット、ツール、方法論を利用できるようになり、サイバー攻撃に対するセキュリティ業界全体の防御力を拡大・強化することができる。

 セキュリティ業界以外では、AIの方法論や知見を共有することが一般的になっているが、サイバーセキュリティ業界ではこの取り組みが遅れており、サイバー脅威の保護に対してAIが実際にどのように貢献しているかについて理解が進んでいない原因となっていた。ソフォスとSophosAIデータサイエンティストのチームは、AI活用に関する知見の共有を促進し、IT管理者、セキュリティアナリスト、最高財務責任者(CFO)、最高経営責任者(CEO)、その他セキュリティ製品の購入または経営に関する意思決定者が公平で十分な情報を得たうえで、AIの利点を議論し評価できるようにした。

 具体的な開発内容としては、SophosAIとReversingLabsとの共同プロジェクトである「SOREL-20M」は、2000万のWindows Portable Executable File(PE)のメタデータ、ラベル、機能が含まれる実用的なデータセット。このデータセットには、セキュリティ業界全体の強化を促進するための特徴抽出の研究を目的とした、1000万の無害化されたマルウェアの検体が含まれている。また、マルウェア研究のために一般に公開される初の実用性のあるデータセットであり、収集され整理されたラベル付きのマルウェア検体セットとセキュリティ関連のメタデータが含まれている。

 SophosAIの「なりすまし保護機能」は、組織内の影響力のある人物になりすまして、メールの受信者を騙し、攻撃者の利益になるような行動を誘発するメールによるスピアフィッシング攻撃から保護するように設計されている。この新しい保護機能は、受信メールの表示名と、CEO、CFO、社長など、スピアフィッシング攻撃で偽装される可能性の高い役員の役職名を比較し、組織固有の名称であるかどうか確認し、攻撃が疑われる場合には警告する。ソフォスは、過去の攻撃に使用された数百万もの大規模なメールサンプルを使用してAIを訓練した。SophosAIは、この新しい保護機能を公開し、Defcon 28で一般向けに説明し、arXivに論文を投稿している。

 また、SophosAIでは、マルウェア感染の全体的な流行を推定するために、疫学から着想を得た一連の統計モデルを構築した。これにより、膨大な数のPEファイルのなかから感染源となったファイルを検出する精度を高めることができる。SophosAIは、デジタル疫学のパイオニアとして、悪意のある攻撃や、見過ごされている恐れのあるマルウェア、誤って分類されている可能性のあるマルウェア、攻撃者が開発している「未知のマルウェア」を判断するのに役立つ手法を一般公開した。このデジタル疫学モデルは、他のクラスのファイルや情報システムのアーチファクトにも拡張できるように設計されており、ソフォスの21年脅威レポートでも説明している。

 さらに、SophosAIは、シグネチャを自動生成する新たな手法である「YaraML」を開発した。YaraMLでは、商用のセキュリティ製品で使用されているような強力な機械学習モデルを、シグネチャ言語に直接「コンパイル」することで、AIがシグネチャを「生成」できるようにした。この手法は、従来の手法よりもはるかに効果的であることが証明されており、セキュリティコミュニティーに技術躍進を起こしている。SophosAIは、YaraMLをオープンソースとして利用できるようにしている。