Kinh nghiệm từ sự cố CrowdStrike

Tuần trước, một bản cập nhật firmware lỗi từ CrowdStrike đã tạo ra một sự gián đoạn diện rộng trong các lĩnh vực ngân hàng, bán lẻ, hệ thống liên lạc khẩn cấp và hàng không. Sự cố này đã khiến 3.000 chuyến bay bị hủy hoặc trễ và gây rối loạn cho nhiều hệ thống.

Hệ thống mạng của nhiều tổ chức trên toàn cầu bị sập bất ngờ khiến nhiều người đặt câu hỏi: Tại sao chỉ một bản cập nhật đến từ 1 công ty như CrowdStrike lại khiến nhiều doanh nghiệp (DN) và cơ quan sụp đổ trong khoảng thời gian ngắn như vậy? Và từ sự cố này, Doanh nghiệp có thể rút ra được kinh nghiệm gì?

Vấn đề từ CrowdStrike?

CrowdStrike nhận định sự cố xuất phát từ lỗi logic không được phát hiện trong quá trình kiểm tra, dẫn đến sự sụp đổ của hệ thống trên diện rộng. Lỗi này xuất phát từ quy trình kiểm soát chất lượng nội bộ. Cụ thể, một bản cập nhật cấu hình nhằm nâng cao hệ thống Windows như một phần của nền tảng Falcon của Crowdstrike đã gặp một lỗi logic, gây ra sự cố hệ thống và ảnh hưởng đến hơn 8 triệu người dùng với “màn hình xanh chết chóc” (BSOD).

Bài học rút ra ở đây là: Quy trình kiểm tra, đánh giá chất lượng tốt hơn có thể đã ngăn chặn điều này. Thay vì phát hiện lỗi sau khi mọi thứ đã xảy ra, thì việc kiểm tra kỹ lưỡng sớm hơn có thể đã phát hiện và khắc phục vấn đề phần mềm trước khi phát hành, giúp ngăn chặn sự gián đoạn hệ thống.

Tầm Quan Trọng của Quy trình kiểm tra nội bộ

Sự thất bại của CrowdStrike trong việc kiểm tra đúng cách bản cập nhật trước khi triển khai nhấn mạnh sự cần thiết của việc kiểm tra kỹ lưỡng trước khi phát hành. Kiểm tra hiệu quả từ giai đoạn đầu phát triển có thể tiết kiệm thời gian, tiền bạc và bảo vệ uy tín thương hiệu.

Từ kinh nghiệm của ASIC Cybersecurity, các vấn đề được phát hiện sớm sẽ có chi phí sửa chữa thấp hơn đáng kể so với những vấn đề được phát hiện về sau. Ví dụ, một lỗi được khắc phục trong quá trình phát triển có thể tốn 1 khoản nhỏ, nhưng nếu được phát hiện bởi đội QA, chi phí có thể tăng gấp 10 lần. Nếu được phát hiện trong quá trình kiểm tra hệ thống, chi phí có thể tăng lên 50-100 lần, và nếu một khách hàng phát hiện ra, chi phí có thể tăng vọt hơn 10.000 lần, chưa kể đến thiệt hại tiềm tàng đối với lòng tin và uy tín của thương hiệu.

Kinh nghiệm 

Để tránh những sai lầm đắt giá và đảm bảo sự thành công của các sản phẩm mới, Quý khách cần phải áp dụng một quy trình kiểm tra nội bộ nghiêm ngặt, như tiến hành một loạt các bài kiểm tra hiệu suất, kiểm tra hồi quy và đảm bảo chất lượng dưới nhiều điều kiện thực tế khác nhau. Các quy trình này yêu cầu phải có giải pháp mô phỏng sự gia tăng lưu lượng, băng thông ở ngưởng đỉnh điểm, hoặc mô phỏng các cuộc tấn công mạng tiềm tàng. Quá trình kiểm tra cần mô phỏng lưu lượng người dùng lớn, bao gồm các trường hợp sử dụng điển hình và bất thường, mô phỏng các công nghệ và phương tiện truy cập đa dạng (LAN, không dây, vệ tinh, cáp, cáp quang, v.v.) trong một môi trường kiểm soát.

ASIC Cybersecurity cung cấp giải pháp mô phỏng mạng đến từ Apposite Technologies (Hoa Kỳ) giúp đơn giản hóa quy trình này. Công cụ “lab in a box” của Apposite giúp các kỹ sư và đội ngũ IT thực hiện kiểm tra hiệu quả, tiết kiệm thời gian và chi phí. Bằng cách tích hợp các thực hành kiểm tra này vào quy trình phát triển, Doanh nghiệp có thể đảm bảo rằng các sản phẩm hoạt động như mong đợi và đảm bảo an ninh mạng.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *