PHÁT HIỆN VÀ GIẢM THIỂU CÁC MỐI ĐE DỌA MỚI TRÊN KHÔNG GIAN MẠNG: TẬP TRUNG THEO HƯỚNG TRÍ TUỆ NHÂN TẠO VÀ HỌC MÁY

line
14 tháng 05 năm 2024

Bộ môn Kỹ thuật Điện tử - Viễn thông

Tóm tắt
Mục tiêu chính của nghiên cứu này là kiểm tra các chiến lược về phát hiện và giảm thiểu các mối đe dọa mới trên không gian mạng bằng việc ứng dụng trí tuệ nhân tạo (Artificial Intelligence – AI) và học máy (Machine Learning – ML). Nghiên cứu cung cấp một cái nhìn tổng quan về vai trò của trí tuệ nhân tạo (AI), học máy (ML) và học sâu (Deep learning (DL) trong lĩnh vực an ninh mạng (Cybersecurity). Ngoài ra, nghiên cứu còn làm nổi bật những lợi ích về việc tích hợp học sâu (DL) vào các biện pháp an ninh mạng. Các nhà nghiên cứu đã khảo sát tỉ mỉ tính hiệu quả của việc kết hợp các kỹ thuật AI và ML vào hệ thống bảo mật Feedzai để tăng cường khả năng phát hiện các hoạt động lừa đảo. Để chứng minh phương pháp, kiểm định viên đã thử nghiệm bằng cách sử dụng thuật toán Rừng ngẫu nhiên (random forest algorithm) của học máy có giám sát (the supervised machine learning) trên tập dữ liệu các bản ghi lại lịch sử giao dịch ở định dạng CSV. Kết quả nghiên cứu đã chứng minh rằng bằng cách sử dụng phần mềm dựa trên AI của Feedzai kết hợp với thuật toán Rừng ngẫu nhiên, các tổ chức tài chính trong tương lai có thể phát hiện gian lận theo thời gian thực và xác định chính xác các giao dịch hợp pháp. Cấu trúc thuật toán Rừng ngẫu nhiên (the random forest) đạt độ chính xác cao nhất là 83.94%. Ngược lại, cấu trúc Naïve Bayes đạt độ chính xác là 79.23% và mô hình K-Nearest Neighbor (KNN) đạt tỷ lệ chính xác thấp nhất 78.74%. Từ kết quả trên chứng minh rằng hệ thống được dựa trên thuật toán Rừng Ngẫu Nhiên (the Random Forest system) là hiệu quả nhất trong việc phát hiện chính xác các cuộc tấn công mạng [1].
1. Giới thiệu
Theo nghiên cứu [2], khi các mối đe dọa mạng đang gia tăng theo cấp số nhân về phạm vi và độ phức tạp, các phương pháp phát hiện và giảm thiểu dựa trên các thuật toán truyền thống từ xưa ngày càng không còn đáp ứng được. Tội phạm mạng đang tìm ra những cách phức tạp hơn nhằm vượt qua các biện pháp kiểm soát bảo mật hiện tại thông qua các phần mềm độc hại có sự phức tạp cao, khai thác lỗ hỏng bảo mật zero-day và tấn công trên nền tản mạng xã hội. Tiếp với nghiên cứu [3], chỉ ra rằng để chống lại các mối đe dọa mới này, các công ty đang chuyển sang phương pháp học máy và trí tuệ nhân tạo nhằm có thể phát hiện quy luật các cuộc tấn công mới và các cuộc tấn công chưa xác định. Bài báo cáo này sẽ chỉ ra cách mà các phương pháp như phát hiện bất thường (anomaly detection), học sâu, xử lý ngôn ngữ tự nhiên (natural language processing) và các mô hình AI, ML đang được sử dụng cho việc làm suy giảm an ninh mạng trong tương lai. Báo cáo tập trung vào việc bàn luận về các cơ hội và thách thức đối với mặt phát triển, triển khai và mở rộng quy mô các chiến lược do AI đề xuất trong các tổ chức.
2. Tổng quan
2.1. Tổng quan về các chiến lược giảm thiểu và phát hiện mối đe dọa mạng truyền thống
Theo [1], trong bối cảnh an ninh mạng ngày càng phát triển, các kỹ thuật truyền thống hoặc phổ biến cho việc phát hiện và giảm thiểu tấn công mạng đã là nền tảng của hệ thống bảo mật nhiều công ty. Mặc dù chúng đóng vai trò quan trọng trong việc bảo vệ tài sản kỹ thuật số nhưng những kỹ thuật này vẫn có những hạn chế và luôn được tăng cường bằng cách các phương pháp tiên tiến hơn, chẳng hạn như học máy và trí tuệ nhân tạo [4].
a. Bảo vệ tường lửa (Firewall Protection)
Trong nghiên cứu [5], lập luận rằng tường lửa (firewalls) là một trong những yếu tố phổ biến và quan trọng nhất của cở sở an ninh mạng. Chúng hoạt động như một rào cản giữa mạng nội bộ của công ty và những thứ bên ngoài, đồng thời kiểm soát và giám sát lưu lượng truy cập theo các quy tắc được thiết lập từ trước. Tường lửa hoạt động hiệu quả trong việc ngăn chặn truy cập trái phép và bảo vệ khỏi các cuộc tấn công mạng bằng cách kiểm tra gói đề mục và triển khai các chính sách kiểm soát truy cập [6]. Tuy nhiên, họ gặp khó khăn trong việc phát hiện và ứng phó với các cuộc tấn công mạng có độ phức tạp cao, chúng có thể khai thác lỗ hổng hoặc sử dụng lưu lượng truy cập đã được mã hóa nhằm qua mặt khâu kiểm tra.
b. Phần mềm chống vi-rút (Antivirus Software)
Phần mềm chống vi-rút được thiết kế để phát hiện và loại bỏ vi-rút cũng như phần mềm độc hại. Các kỹ thuật này áp dụng tính năng phát hiện dựa trên dấu hiệu, các đoạn mã và tệp lạ dựa trên cơ sở dữ liệu về các dấu hiệu độc hại đã được thu thập [1]. Mặc dù chúng có hiệu quả trong việc phát hiện và loại bỏ các mối nguy hiểm đã được nhận biết nhưng lại tỏ ra kém hiệu quả hơn trước các mối đe dọa chưa được xác định và phần mềm độc hại phức tạp, chúng liên tục phát triển để tránh việc bị phát hiện dựa trên các dấu hiệu [3].
c. Hệ thống phát hiện xâm nhập (Intrusion Detection Systems – IDS)
IDS được thiết kế để giám sát nhật ký hệ thống và lưu lượng mạng, phát hiện các hoạt động đáng ngờ và các cuộc tấn công vào bảo mật có thể xảy ra. Chúng được thiết kế thành hai loại chính, đáng chú ý nhất là IDS dựa trên mạng lưới (network-based IDS – NIDS) và IDS dựa trên máy chủ (hostbased IDS – HIDS). NIDS điều chỉnh lưu lượng mạng một cách thụ động, trong khi HIDS điều chỉnh các hoạt động trên từng thiết bị riêng lẻ [1]. IDS có thể đưa ra cảnh báo khi chúng xác định được điểm bất thường hoặc xu hướng tấn công đã được nhận biết. Tuy nhiên, chúng thường đưa ra các kết quả nhầm lẫn (false positives), khiến các nhóm bảo mật khó phân biệt giữa các mối đe dọa thực sự và các sự kiện chưa thực sự đe dọa [1].
d. Hệ thống bảo mật thông tin và quản lý sự kiện (SIEM)
Hệ thống SIEM sẽ thu thập, đánh giá và liên kết dữ liệu từ vô số nguồn, bao gồm các cảnh báo và nhật ký được phát triển bởi các giải pháp bảo mật. Họ cung cấp một diễn đàn tập trung để quản lý và giải quyết các sự cố bảo mật [7]. Mặc dù SIEM cung cấp những hiểu biết sâu sắc và khả năng báo cáo có giá trị nhưng hệ thống không phải lúc nào cũng có khả năng giải quyết theo thời gian thực và có thể gặp khó khăn với khối lượng dữ liệu lớn do các mạng lưới thông tin ở thời điểm hiện tại cung cấp, có thể bỏ sót những mối đe dọa cần được để ý ngay lập tức [1].
e. Kiểm soát truy cập (Access Control)
Các biện pháp can thiệp kiểm soát truy cập, chẳng hạn như cho phép (authorization) và xác thực (authentications), hạn chế quyền truy cập vào các tài nguyên nhạy cảm dựa theo thông tin xác thực của người dùng. Mặc dù các quy định đối với truy cập đóng vai trò then chốt trong việc cản trở việc truy cập trái phép nhưng nó không trực tiếp giải quyết các mối đe dọa phát sinh như lừa đảo, phần mềm độc hại hoặc lỗ hổng zero-day.
f. Quản lý bản vá (Patch Management)
Quản lý bản vá là phương pháp duy trì phần mềm và hệ điều hành được cập nhật với các bản vá và bản cập nhật bảo mật hiện tại. Mặc dù kỹ thuật này là công cụ góp phần loại bỏ các lỗ hổng đã được phát hiện nhưng nó sẽ phụ thuộc vào việc các tổ chức có áp dụng kịp thời các bản vá ngay khi lỗ hổng được phát hiện. Việc vá lỗi chậm trễ khiến hệ thống dễ bị khai thác [8].
g. Security Awareness Training (Security Awareness Training)
Vẫn theo nghiên cứu [8], khẳng định rằng lỗi về mặt con người vẫn tồn tại như một yếu tố quan trọng trong các cuộc tấn công mạng. Các kỹ thuật truyền thống đòi hỏi phải đào tạo nhân viên về các rủi ro của lừa đảo, kỹ thuật xã hội và các biện pháp tốt nhất nhằm đảm bảo bảo mật. Mặc dù công cuộc đào tạo là then chốt nhưng nó không đảm bảo sự bảo vệ hoàn toàn vì ngay cả những người dùng có hiểu biết tốt cũng có thể trở thành nạn nhân của các cuộc tấn công mạng phức tạp.
2.2. Trí tuệ nhân tạo (AI) và học máy (ML) trong an ninh mạng
Nghiên cứu [1] cho rằng học máy và trí tuệ nhân tạo là các lĩnh vực con của khoa học máy tính, tập trung vào phát triển hệ thống và thuật toán có khả năng học hỏi từ dữ liệu, phát hiện quy luật và đưa ra quyết định hoặc dự đoán. Trong bối cảnh an ninh mạng ngày càng được chú trọng, công nghệ AI và ML cấp quyền và tăng cường các hệ thống nhằm thích ứng, điều chỉnh, phát triển và nâng cao khả năng phát hiện và giảm thiểu mối đe dọa thời gian thực.
2.3. Lợi ích của AI và ML trong an ninh mạng
Trí tuệ nhân tạo và Học máy cung cấp vô số lợi thế trong lĩnh vực an ninh mạng. Đặc biệt, chúng tạo điều kiện thuận lợi trong việc nhận biết mối đe dọa một cách chủ động, phân tích thời gian thực và tự động đưa ra phản ứng phù hợp [1]. Khả năng xử lý lưu lượng lớn dữ liệu và phát hiện các dạng phức tạp giúp đạt hiệu quả cao trong việc chống lại các mối đe dọa mạng ngày càng gia tăng. Hơn nữa, những công nghệ này có thể giảm thiểu các kết quả nhầm lẫn, nâng cao hiệu quả tổng thể của hoạt động an ninh mạng [3].
2.4. Vai trò của AI và ML trong việc cải thiện khả năng phát hiện và giảm thiểu mối đe dọa
Trí tuệ nhân tạo (AI) và Học máy (ML) đang chuyển đổi lĩnh vực an ninh mạng bằng cách cung cấp các kỹ thuật mới nhằm xác định và giảm thiểu mối đe dọa mạng. Những công nghệ này có thể tương thích, điều chỉnh việc tăng cường học hỏi và nâng cấp theo thời gian, biến chúng thành công cụ đắc lực trong cuộc chiến chống lại các cuộc tấn công mạng [1]. Dưới đây là các sự tăng cường mà AI và ML đem lại trong lĩnh vực bảo mật:
⦁ Phát hiện mối đe dọa chủ động (Proactive Threat Detection)
⦁ Phân tích thời gian thực (Proactive Threat Detection)
⦁ Phát hiện bất thường (Anomaly Detection)
⦁ Phân tích thông minh mối đe dọa (Threat Intelligence Analysis)
⦁ Phân tích dựa trên hành vi (Behavior-based Analysis)
⦁ Phát hiện phần mềm độc hại (Malware Detection)
⦁ Ứng phó sự cố tự động (Automated Incident Response)
3. Mô hình và phương pháp
3.1. Kỹ thuật học máy để giảm thiểu các mối đe dọa mạng (Machine Learning Techniques for Mitigating Cyber-Threats)

Trong lĩnh vực an ninh mạng, các kỹ thuật học máy sử dụng các mô hình hành vi lừa đảo trong quá khứ nhằm có thể xác định và phát hiện chúng trên các hoạt động mạng. Ví dụ: các thuật toán học máy như thuật toán Rừng ngẫu nhiên (Random Forest), sử dụng sự kết hợp giữa các mô hình cây quyết định, thuật toán được triển khai với mục đích phát triển các mô hình cây quyết định nhằm tăng cường khả năng phân loại dữ liệu. Những kỹ thuật này tỏ ra hiệu quả hơn trong việc phát hiện các đặc điểm gian lận so với khả năng phân tích từ con người [4].


Hình 1: Mô hình các phương pháp tiếp cận học máy

3.2. Sử dụng học sâu (Usage of Deep Learning)
Học sâu có thể được phân thành các loại riêng biệt được coi là mạng lưới thần kinh nhân tạo hoặc mạng lưới thần kinh [1]. Các mạng thần kinh này được sắp xếp với các lớp chiến lược và thường được gọi là mạng thần kinh tích chập (Convolutional Neural Networks – CNN), mô hình này thường được áp dụng cho các tác vụ liên quan đến xử lý ảnh, điểm ảnh (pixel processing) và mạng thần kinh lặp (Recurrent Neural Networks – RNN). Hai dạng thuật toán học máy được sử dụng để phát hiện cuộc tấn công mạng: 
⦁ Học sâu có giám sát (Supervised Deep Learning)
⦁ Học sâu không giám sát (Unsupervised Deep Learning)


Hình 2: Sơ đồ các danh mục trong học sâu

3.3. Trí tuệ nhân tạo trong an ninh mạng (Artificial Intelligence in Cyber-Security)
Theo nghiên cứu [8], các phương pháp trí tuệ nhân tạo (AI) được ứng dụng toàn diện trong lĩnh vực an ninh mạng nhằm giải quyết các nhiệm vụ quan trọng khác nhau, gồm quản lý lỗ hổng, dự báo rủi ro vi phạm, phản ứng lại các tình huống phát sinh, phân tích nhằm phát hiện các mối đe dọa, điều chỉnh các phần mềm độc hại, nhận biết sự xâm nhập và phòng ngừa chúng. Trí tuệ nhân tạo có khả năng chủ động phát hiện và ngăn chặn các điểm bất thường liên quan đến gian lận, từ đó giúp tăng cường đáng kể các biện pháp bảo mật.


Hình 3: Mô hình ứng dụng trí tuệ nhân tạo trong an ninh mạng

Dưới đây là sơ đồ giải thuật cho hệ thống được sử dụng kỹ thuật học sâu có giám sát (supervised deep learning) kết hợp với thuật toán Rừng ngẫu nhiên (random forest algorithms). Hệ thống hoạt động như sau:

Bước 1: Thu thập dữ liệu
Hệ thống thu thập dữ liệu từ nhiều nguồn khác nhau, chẳng hạn như từ nhật ký hệ thống, lưu lượng truy cập mạng và các sự kiện bảo mật.
Bước 2: Thuật toán Rừng ngẫu nhiên
Mô hình này sử dụng thuật toán Rừng ngẫu nhiên cho việc đánh giá và kiểm tra dữ liệu thu thập được từ bước 1, đồng thời phát hiện các cuộc tấn công mạng tiềm ẩn.
Bước 3: Kiểm tra hoạt động bất thường
Ở bước này, mô hình thực hiện việc kiểm tra các hoạt động gian lận dựa trên đầu ra của thuật toán Rừng ngẫu nhiên.
⦁ Đúng: nếu mô hình phát hiện các hoạt động độc hại, nó sẽ tiến hành phân tích sâu hơn.
⦁ Sai: nếu mô hình không phát hiện hành vi nguy hiểm thì nó sẽ chuyển sang giai đoạn tiếp theo.
Bước 4: Cảnh báo có tấn công bảo mật
Hệ thống sẽ gửi thông báo có cuộc tấn công mạng đến bộ phận chịu trách nhiệm quản lý và xử lý
Bước 5: Nhật ký
Hệ thống ghi lại sự cố tấn công mạng.
Bước 6: Kết thúc
Quá trình kết thúc
3.4. Thuật toán Rừng ngẫu nhiên (Random Forest Algorithms)
Rừng ngẫu nhiên là một kỹ thuật học tập tổng hợp sử dụng nhiều mô hình cây quyết định (multiple decision trees) nhằm đưa ra dự đoán. Thay vì phụ thuộc duy nhất vào một mô hình cây quyết định, Rừng ngẫu nhiên tích hợp các đầu ra của nhiều cây nhằm đưa ra dự đoán cuối cùng. Mỗi mô hình cây quyết định trong Rừng ngẫu nhiên đều được huấn luyện trên tập con ngẫu nhiên trong tổng dữ liệu và dự đoán cuối cùng được đưa ra dựa vào quyết định được đa số lựa chọn hoặc tính trung bình các dự đoán từ từng cây riêng lẻ.
3.5. Phát hiện tấn công mạng bất thường của Fedzai
Trong nghiên cứu này, phần mềm Feedzai được đề xuất để phát hiện những bất thường trong hoạt động mạng. Feedzai được coi là một trong những hệ thống thông minh hàng đầu được tạo ra nhằm chống lại các cuộc tấn công mạng. Nó giúp tối đa hóa sức mạnh của trí tuệ nhân tạo nhằm phát hiện và giảm thiểu các hoạt động gian lận trong lĩnh vực ngân hàng một cách hiệu quả.
3.6. Tích hợp phần mềm Fedzai dựa trên AI với ML
Bảng 1: hiển thị các mô hình cùng với hiệu suất tương ứng của chúng

Bảng 1 trên hiển thị tỷ lệ chính xác của các mô hình trong việc phát hiện tấn công mạng riêng biệt, gồm mô hình KNN, Naïve Bayes và Random Forest. Tỷ lệ chính xác biểu thị tỷ lệ phần trăm các cuộc tấn công mạng được mô hình phát hiện chính xác. Mô hình Random Forest cho ra tỷ lệ chính xác cao nhất, ở mức 83,94%. Ngược lại, mô hình Naïve Bayes có tỷ lệ chính xác là 79,23% và mô hình KNN có tỷ lệ chính xác thấp nhất là 78,74%. Dựa vào kết quả trên, hệ thống sử dụng mô hình Rừng ngẫu nhiên (Random Forest) là hệ thống đạt hiệu quả nhất trong việc phát hiện các cuộc tấn công mạng. Điều này có thể là do cấu trúc Rừng ngẫu nhiên có khả năng nhận biết được các mối quan hệ phức tạp giữa các đặc tính, giúp mô hình này sẽ phù hợp với các nhiệm vụ như phát hiện sự bất thường và gian lận [1].
4. Kết luận
Trong nghiên cứu này, nhà nghiên cứu đã xem xét các chiến lược phát hiện và giảm thiểu mối đe dọa mạng thế hệ tiếp theo, đáng chú ý nhất là tập trung vào trí tuệ nhân tạo và Học máy. Từ nghiên cứu, việc áp dụng các phương pháp tiếp cận trí tuệ nhân tạo (AI) và học máy (ML), bằng cách kết hợp hệ thống bảo mật Feedzai hiện có, để tăng cường việc phát hiện các hoạt động gian lận. Nghiên cứu đã trình bày tóm tắt về ứng dụng trí tuệ nhân tạo và các công nghệ liên quan của nó, chẳng hạn như học máy và học sâu (DL). Hơn nữa, nghiên cứu đã truyền tải những lợi ích của việc tích hợp học sâu vào an ninh mạng ở thực tiễn. Để chứng minh phương pháp, kiểm định viên đã thực hiện một thử nghiệm bằng cách sử dụng thuật toán Rừng ngẫu nhiên của học máy có giám sát (the supervised machine learning random forest algorithm) trên tập dữ liệu bao gồm các bản ghi lịch sử giao dịch ở định dạng CSV. Kết quả của nghiên cứu chứng minh rằng các tổ chức tài chính trong tương lai có thể đạt được khả năng phát hiện gian lận theo thời gian thực và phát hiện chính xác các giao dịch thực sự bằng cách tận dụng phần mềm của Fedzai và công cụ Machine Learning mở của nó.
Tài liệu tham khảo
[1] Labu MR, Ahammed MF. Next-Generation Cyber Threat Detection and Mitigation Strategies: A Focus on Artificial Intelligence and Machine Learning. Journal of Computer Science and Technology Studies. 2024;6(1):179 -88.
[2] Vaiyapuri T, Sbai Z, Haya A, Ali N. Deep Learning Approaches for Intrusion Detection in IIoT Networks – Opportunities and Future Directions. International Journal of Advanced Computer Science and Applications. 2021;12.
[3] Hasan R. Cybercrime Techniques in Online Banking. 2022;13:524.
[4] Dayyabu Y, Arumugam D, Balasingam S. The application of artificial intelligence techniques in credit card fraud detection: a quantitative study. E3S Web of Conferences. 2023;389.
[5] Mhlanga D. Financial Inclusion in Emerging Economies: The Application of Machine Learning and Artificial Intelligence in Credit Risk Assessment. International Journal of Financial Studies [Internet]. 2021; 9(3).
[6] Islam MZ, Chowdhury M, Sarker M. The Impact of Big Data Analytics on Stock Price Prediction in the Bangladesh Stock Market: A Machine Learning Approach. 2023:1.
[7] Narsimha B, Raghavendran CV, Rajyalakshmi P, Reddy GK, Bhargavi MS, Naresh PJIJoE, et al. Cyber Defense in the Age of Artificial Intelligence and Machine Learning for Financial Fraud Detection Application. 2022.
[8] Ryman-Tubb NF, Krause P, Garn W. How Artificial Intelligence and machine learning research impacts payment card fraud detection: A survey and industry benchmark. Engineering Applications of Artificial Intelligence. 2018;76:130-57.
ThS. Đàm Quốc Việt (Khoa Kỹ thuật - Công nghệ, Trường Đại học Văn Hiến)