Bộ Giao Thức Proto Buffers Trong Lua

Anonymous trong Thảo Luận và Tính Toán Song Song

2010-08-01 Khoảng 1100 từ 5 phút

Theo như Jeff Dean của Google chia sẻ, khi xây dựng các hệ thống phân tán, điều tối quan trọng là phải có một Ngôn ngữ Mô tả Giao thức (Protocol Description Language). Hệ thống Proto Buffers của Google không chỉ là một công cụ mã hóa dữ liệu, mà giá trị cốt lõi nằm ở việc nó xác lập một chuẩn PDL hiệu quả. Chính cách triển khai của Proto Buffers lại là yếu tố ít quan trọng hơn so với định nghĩa chuẩn đó.

Trong vài ngày qua, tôi đang mày mò xây dựng thư viện hỗ trợ Proto Buffers trên Lua. Một câu hỏi luôn quanh quẩn trong đầu tôi là: Làm thế nào để thiết kế một giao diện thực sự phù hợp với đặc tính linh hoạt của ngôn ngữ Lua?

Hầu hết các triển khai Proto Buffers trong các ngôn ngữ khác đều chuyển đổi dữ liệu mã hóa thành cấu trúc dữ liệu bản địa. Trong C/C++, phương pháp này là tối ưu vì hiệu suất. Tuy nhiên với các ngôn ngữ động như Lua, hướng tiếp cận này có thể không còn hiệu quả. Dù Google đã có phiên bản chính thức cho Python nhưng tôi vẫn muốn thử tìm một cách tiếp cận khác tối ưu hơn.

Lua có điểm mạnh đặc biệt trong việc xử lý dữ liệu thông qua cơ chế stack. Dù bảng (table) cũng khá nhanh, nhưng những cấu trúc bảng phức tạp, đa cấp thường trở thành điểm nghẽn hiệu suất. Nhân tiện nói thêm, động cơ JS V8 của Google có thể vượt trội hơn LuaJIT trong một số tình huống chính nhờ tối ưu đáng kể tốc độ truy vấn bảng. Đây gần như là điểm nóng hiệu suất của mọi ngôn ngữ động. Việc tạo ra quá nhiều bảng tạm thời còn gây áp lực lớn lên trình thu gom rác (GC). Tôi tự hỏi liệu có cách nào sử dụng dữ liệu Proto Buffers trên Lua mà tránh phải xây dựng cấu trúc phức tạp?

Sau 3-4 ngày phát triển, tôi đã hoàn thành prototype thư viện Proto Buffers cho Lua hoàn toàn viết bằng C. Thư viện này chỉ cung cấp 4 hàm giao diện chính:

load - Nạp metadata của Proto Buffers, mô tả toàn bộ giao thức và trả về đối tượng C (userdata) vào Lua state. Đối tượng này chứa toàn bộ thông tin mô tả giao thức, ngoại trừ chuỗi ký tự thì đều được lưu trong một vùng nhớ liên tục. Các chuỗi tham chiếu được lưu trong bảng môi trường của userdata, còn trong đối tượng C chỉ giữ chỉ số. Giải pháp này giúp tối ưu hóa đáng kể hiệu suất truyền chuỗi trong Lua runtime.
pattern - Tạo đối tượng mẫu (vẫn là đối tượng C) cho từng message. Đây là trái tim của toàn bộ thư viện, dùng để mã hóa/giải mã dữ liệu. Việc tạo pattern khá tốn kém, nhưng chỉ cần thực hiện một lần duy nhất. Thư viện có thể cache các pattern này dưới dạng chuỗi, cho phép dễ dàng truy xuất và đóng gói mở rộng ở tầng Lua.
unpack - Giải mã dữ liệu từ block theo pattern đã định. Thay vì tạo ra bảng tạm thời như thông thường, dữ liệu được đẩy trực tiếp lên stack theo chỉ dẫn của pattern. Người dùng vẫn có thể dễ dàng viết wrapper Lua để chuyển đổi sang dạng bảng nếu muốn, chỉ cần vài dòng code đơn giản.
pack - Đóng gói dữ liệu từ stack theo pattern quy định. Cách tiếp cận này tránh hoàn toàn việc tạo bảng tạm thời, giúp giảm gánh nặng lên GC.

Trước khi xây dựng chính thư viện, tôi đã đầu tư thời gian để phân tích file mô tả giao thức của Google Proto Buffers. Như đã nói, tôi tin rằng định nghĩa giao thức mới là lõi cốt lõi, còn chuẩn mã hóa nhị phân chỉ là yếu tố phụ. Google đã cung cấp công cụ biên dịch file mô tả thành dữ liệu chuẩn Proto Buffers rất tiện lợi, nhưng tôi muốn thử cách tiếp cận độc lập hơn, không phụ thuộc vào chuẩn nhị phân.

May mắn thay, Lua rất phù hợp cho công việc này. Ngôn ngữ mô tả Proto Buffers tương đối đơn giản, dễ phân tích cú pháp. Tôi đã sử dụng thư viện lpeg mạnh mẽ để viết bộ phân tích ngữ nghĩa chỉ với khoảng 100 dòng code Lua. Đây là minh chứng đẹp cho sức mạnh của PEG - khuyến khích các lập trình viên chưa biết nên học kỹ, vì việc tạo DSL cho dự án riêng sẽ trở nên dễ dàng hơn bao giờ hết.

Quá trình phân tích này tuy nặng nề nhưng kết quả chỉ tạo ra một đối tượng C nhỏ gọn. Tôi áp dụng thủ thuật thú vị: dùng một Lua state độc lập để xử lý việc phân tích. Bộ quản lý bộ nhớ cho state này được thiết kế chỉ cấp phát mà không giải phóng, hoạt động trên vùng nhớ hệ thống riêng để dễ dàng dọn dẹp toàn bộ sau khi hoàn tất. Việc này cho phép kiểm soát chặt chẽ lượng tiêu hao - ví dụ xử lý file proto 70KB tạo ra đối tượng C 1.5MB.

Việc sử dụng nhiều Lua state nên được xem là nguyên tắc tốt khi phát triển ứng dụng quy mô lớn. Phân tách các module vào state riêng biệt không chỉ giúp quản lý bộ nhớ hiệu quả hơn mà còn đảm bảo môi trường sạch sẽ sau khi hoàn thành nhiệm vụ.

Hiện tại thư viện này vẫn còn rất sơ khai, tôi sẽ chưa chia sẻ chi tiết hơn. Khi nào hoàn thiện và ổn định hơn sẽ cân nhắc công khai mã nguồn.

P/s: Trong cộng đồng Lua, xu hướng thiết kế các ngôn ngữ mẫu nhỏ (mini DSL) để xử lý dữ liệu rất phổ biến. Từ bộ match chuỗi bản địa, đến cosmo, hay chính lpeg với module re mô phỏng regex… đều là cảm hứng để tôi xây dựng khái niệm pattern như hiện tại cho Proto Buffers.