Raspberry Pi Ai Kit hoạt động như thế nào?
Bộ công cụ AI Raspberry Pi hoạt động bằng cách kết nối bộ xử lý thần kinh chuyên dụng thông qua bộ chuyển đổi M.2 HAT+ với giao diện PCIe của Raspberry Pi 5. Bộ công cụ này cung cấp sức mạnh xử lý AI 13 tera{5}}mỗi giây chỉ với 70 USD, cho phép phát hiện đối tượng theo thời gian thực, ước tính tư thế và phân đoạn hình ảnh mà không làm CPU chính bị quá tải. Mô-đun tăng tốc độc lập này xử lý suy luận AI cục bộ, giúp Pi 5 của bạn có khả năng chạy các mô hình thị giác máy tính phức tạp mà trước đây yêu cầu điện toán đám mây hoặc phần cứng đắt tiền.
Thời điểm thị trường là rất quan trọng. Raspberry Pi đã báo cáo doanh thu 259,5 triệu USD cho năm tài chính 2024 với 22 lần ra mắt sản phẩm tập trung vào phần cứng AI và IoT, báo hiệu sự đặt cược chiến lược của họ vào điện toán ranh giới. Khi các doanh nghiệp chuyển khối lượng công việc AI từ đám mây sang thiết bị biên, việc hiểu cách thức hoạt động của bộ công cụ giá cả phải chăng này trở nên quan trọng đối với các nhà phát triển làm việc trên các dự án máy ảnh thông minh, robot và tự động hóa công nghiệp.
Bên trong phần cứng: Kiến trúc vật lý
Bộ AI bao gồm ba thành phần tích hợp hoạt động cùng nhau. Bộ xử lý thần kinh Hailo-8L nằm ở cốt lõi - đây là nơi diễn ra quá trình tính toán AI thực tế. Mô-đun này sử dụng hệ số dạng M.2 2242 và kết nối thông qua đầu nối cạnh phím M, tuân theo các quy ước thành phần PC tiêu chuẩn.
M.2 HAT+ đóng vai trò là cầu nối giữa chip Hailo và giao diện PCIe Gen 3 của Raspberry Pi. Hãy coi nó như một trình dịch chuyển đổi tín hiệu giữa hai ngôn ngữ phần cứng khác nhau. Một miếng đệm nhiệt được-lắp sẵn giữa mô-đun và HAT+ để tránh quá nhiệt trong các hoạt động AI chuyên sâu-chi tiết này rất quan trọng vì quá trình xử lý thần kinh tạo ra lượng nhiệt đáng kể.
Trình tự kết nối diễn ra như sau: Raspberry Pi 5 → cáp PCIe FPC → M.2 HAT+ → chip Hailo-8L. Không giống như AI HAT+ mới hơn vốn tích hợp mọi thứ vào một bo mạch, AI Kit sử dụng phương pháp M.2 mô-đun này, giúp bạn có thể linh hoạt chuyển đổi trong bộ lưu trữ NVMe nếu cần.
Số liệu hiệu suất thực sự quan trọng
Số TOPS thô không kể toàn bộ câu chuyện. Hailo-8L đạt hiệu suất 3-4 TOPS trên mỗi watt, điều này giải thích lý do tại sao nó hoạt động tương đương với các hệ thống có giá cao hơn gấp 5 lần. Thử nghiệm trong thế giới thực cho thấy những hiểu biết thực tế hơn.
Khi chạy tính năng phát hiện đối tượng của YOLOv8 trên nguồn cấp dữ liệu video 640x640 pixel, Pi 5 với Hailo-8L đạt được 80 FPS khi bật PCIe Gen 3 - tăng gấp đôi hiệu suất của chế độ Gen 2. Tiêu thụ điện năng vẫn ở mức thấp đáng kể. Toàn bộ hệ thống Pi 5 8GB có khả năng tăng tốc Hailo tiêu thụ khoảng 10W trong quá trình suy luận AI đang hoạt động, tương đương với bộ sạc điện thoại thông thường.
Quản lý nhiệt độ tỏ ra hiệu quả trong thực tế. Thử nghiệm điểm chuẩn của Seeed Studio cho thấy hiệu suất ổn định trong các phiên kéo dài mà không bị giật, nhờ vào giải pháp tản nhiệt được cài đặt sẵn. Điều này trái ngược với suy luận dựa trên GPU-trong đó giới hạn về nhiệt thường trở thành nút thắt cổ chai.
Luồng dữ liệu: Từ camera đến kết quả suy luận
Đây là những gì thực sự xảy ra khi Pi 5 của bạn xử lý video trực tiếp thông qua Bộ công cụ AI. Mô-đun máy ảnh chụp các khung hình và gửi dữ liệu hình ảnh thô đến CPU của Raspberry Pi thông qua giao diện CSI. CPU thực hiện quá trình xử lý trước tối thiểu-thường chỉ là điều chỉnh độ phân giải và chuyển đổi định dạng-trước khi chuyển dữ liệu tới trình tăng tốc Hailo.

Bus PCIe Gen 3 truyền dữ liệu đã xử lý trước này sang Hailo-8L với tốc độ lên tới 8 GT/s. Bộ xử lý thần kinh sau đó sẽ thực hiện suy luận thực tế bằng cách sử dụng kiến trúc chuyên biệt của nó. Kiến trúc Hailo-8 bao gồm RAM độc lập mà không yêu cầu DRAM bên ngoài, giúp giảm đáng kể độ trễ so với các bộ tăng tốc AI truyền thống liên tục lấy dữ liệu từ bộ nhớ hệ thống.
Kết quả sẽ quay trở lại thông qua cùng một kết nối PCIe. CPU nhận dữ liệu có cấu trúc-tọa độ đối tượng, điểm tin cậy phân loại, tư thế được phát hiện-không phải pixel thô. Sau đó, tập lệnh Python của bạn sẽ diễn giải các kết quả này để kích hoạt các hành động: gửi cảnh báo, ghi lại cảnh quay, kích hoạt động cơ hoặc cập nhật cơ sở dữ liệu.
Ngăn xếp phần mềm ứng dụng rpicam-cung cấp lớp tích hợp. Hiện tại, ứng dụng rpicam-là phần mềm chính được tích hợp sâu với Hailo, mặc dù hỗ trợ PiCamera2 đã được thêm vào. Điều này có nghĩa là bạn có thể viết các tập lệnh truyền dữ liệu đầu vào của camera qua mạng thần kinh một cách liền mạch chỉ bằng một vài dòng mã.
Triển khai-thực tế trên thế giới: Hộp đựng camera an ninh thông minh
Hãy để tôi xem qua một ví dụ cụ thể thể hiện khả năng của bộ công cụ này. VEEB Projects đã xây dựng "Peeper Pam", một hệ thống phát hiện được hỗ trợ bởi AI- nhằm cảnh báo người dùng khi có ai đó tiếp cận từ phía sau trong cuộc gọi điện video, sử dụng tính năng phát hiện vật thể để nhận dạng con người trong khi bỏ qua đồ nội thất và cây cối.
Việc triển khai của họ yêu cầu các thành phần cơ bản: Raspberry Pi 5 với AI Kit, Camera Module 3, Raspberry Pi Pico W và vôn kế analog. Hệ thống chỉ mất ba ngày để phát triển, với thách thức kỹ thuật lớn nhất là triển khai các ổ cắm web để liên lạc hiệu quả giữa Pi 5 và Pico W.
Kiến trúc thể hiện tính toán biên thông minh. Pi 5 xử lý tất cả quá trình xử lý AI cục bộ,-phân tích từng khung hình về sự hiện diện của con người, tính toán điểm tin cậy và kích hoạt cảnh báo. Pico W nhẹ chỉ đơn giản là lắng nghe tín hiệu thay vì liên tục thăm dò, tiết kiệm năng lượng và giảm chi phí mạng. Đồng hồ đo analog cung cấp phản hồi trực quan tức thời, chuyển từ 0 (không phát hiện được người) sang 1 (phát hiện nhất định) với mức độ không chắc chắn tăng dần.
Dự án này tiêu thụ tổng công suất khoảng 12-15W bao gồm cả máy ảnh, ít hơn nhiều so với các giải pháp dựa trên đám mây tương đương đòi hỏi phải phát video liên tục. Quá trình xử lý cục bộ cũng loại bỏ những lo ngại về quyền riêng tư vì không có cảnh quay nào rời khỏi thiết bị.
Quy trình thiết lập từng bước-từng{1}}
Việc vận hành Bộ công cụ AI bao gồm năm giai đoạn riêng biệt. Mỗi giai đoạn đều có những yêu cầu cụ thể và những cạm bẫy chung cần tránh.
Giai đoạn 1: Lắp ráp phần cứng
Bắt đầu với Raspberry Pi 5 chạy hệ điều hành Raspberry Pi 64-bit mới nhất. Gắn M.2 HAT+ vào tiêu đề GPIO, đảm bảo căn chỉnh phù hợp. Kết nối cáp PCIe FPC với cả Pi và HAT+-cáp có hướng cụ thể và việc buộc cáp không đúng cách sẽ làm hỏng đầu nối. Cố định mô-đun Hailo-8L vào khe M.2 bằng giá đỡ đi kèm.
Giai đoạn 2: Kích hoạt PCIe Gen 3
Pi 5 mặc định là PCIe Gen 2 để ổn định. Chỉnh sửa /boot/firmware/config.txt và thêm dtparam=pciex1_gen=3. Thay đổi duy nhất này sẽ tăng gấp đôi hiệu suất suy luận của bạn. Khởi động lại và xác minh bằng lspci -vv|grep "LnkSta:" để xác nhận Gen 3 đang hoạt động.
Giai đoạn 3: Cài đặt phần mềm
Cài đặt ngăn xếp phần mềm Hailo: sudo apt update và sudo apt install hailo-tất cả. Gói này bao gồm thời gian chạy HailoRT, các ứng dụng rpicam-có hỗ trợ Hailo và các mô hình mạng thần kinh mẫu. Quá trình cài đặt cần khoảng 2GB dung lượng ổ đĩa và 10-15 phút trên kết nối băng thông rộng thông thường.
Giai đoạn 4: Kiểm tra xác minh
Chạy bản trình diễn phát hiện đối tượng đi kèm: rpicam-hello -t 0 --post-process-file /usr/share/rpi-Camera-assets/hailo_yolov6_inference.json. Bạn sẽ thấy tính năng phát hiện đối tượng theo thời gian thực với các hộp giới hạn được vẽ xung quanh các mục được phát hiện. Tốc độ khung hình trên 60 FPS cho thấy Gen 3 hoạt động thích hợp.
Giai đoạn 5: Triển khai mô hình tùy chỉnh
Đối với các mô hình được đào tạo của riêng bạn, hãy sử dụng Trình biên dịch luồng dữ liệu Hailo để chuyển đổi các mô hình TensorFlow hoặc PyTorch sang định dạng HEF của Hailo. Trình biên dịch tự động xử lý lượng tử hóa và tối ưu hóa, mặc dù bạn sẽ cần các mẫu tập dữ liệu đại diện để hiệu chỉnh. Triển khai tệp .hef thu được và tích hợp tệp đó với quy trình ứng dụng rpicam-của bạn.
Bối cảnh thị trường: Tại sao việc tăng tốc Edge AI lại quan trọng hiện nay
Thị trường chip AI biên đang có sự tăng trưởng bùng nổ. Thị trường chip AI toàn cầu đạt 123,16 tỷ USD vào năm 2024 và dự kiến sẽ đạt 311,58 tỷ USD vào năm 2029, tăng trưởng với tốc độ CAGR 24,4%. Đây không chỉ là những con số lớn hơn-nó thể hiện sự thay đổi cơ bản về nơi diễn ra quá trình xử lý AI.
Hailo, công ty đứng sau chip tăng tốc, đã đạt được sự xác nhận đáng kể. Công ty khởi nghiệp này đã huy động được 120 triệu USD vào tháng 4 năm 2024 và hiện phục vụ hơn 300 khách hàng trong các lĩnh vực ô tô, an ninh, bán lẻ và tự động hóa công nghiệp. Sự tồn tại của họ trong một thị trường nơi nhiều công ty khởi nghiệp về chip AI đã thất bại nói lên khả năng tồn tại của các giải pháp tập trung vào lợi thế.

Bối cảnh cạnh tranh làm nổi bật sự đánh đổi thú vị. Hailo-10H mang lại hiệu suất 40 TOPS của INT4, tương đương với 20 TOPS của INT8, so với NPU Core Ultra Meteor Lake của Intel ở 11 TOPS và AMD's Ryz 8040 ở 16 TOPS. Tuy nhiên, các công ty chip của Mỹ chỉ huy động được 881 triệu USD từ tháng 1 đến tháng 9 năm 2023, giảm so với mức 1,79 tỷ USD vào năm 2022, cho thấy môi trường tài trợ đầy thách thức khiến thành công của Hailo trở nên đáng chú ý.
Cụ thể đối với hệ sinh thái Raspberry Pi, trọng tâm AI và IoT dự kiến sẽ thúc đẩy doanh số bán phụ kiện tăng 15-20% so với cùng kỳ năm ngoái cho đến năm 2026. Bộ công cụ AI thể hiện sự gia nhập của Raspberry Pi vào một thị trường nơi họ có thể tận dụng cơ sở người dùng và mạng lưới phân phối khổng lồ của mình trước các đối thủ cạnh tranh chuyên biệt.
Những quan niệm sai lầm phổ biến về bộ AI
Quan niệm sai lầm: "13 TOPS có nghĩa là nó chạy bất kỳ mô hình AI nào"
Thực tế bao gồm nhiều sắc thái đáng kể. Hailo-8L vượt trội về mạng thần kinh tích chập để phát hiện đối tượng thị giác máy tính, phân đoạn, ước tính tư thế. Nó gặp khó khăn với các mô hình ngôn ngữ lớn vì chip thiếu VRAM đủ cho suy luận LLM. Con số 13 TOPS áp dụng cho hoạt động của INT8, trong khi nhiều mẫu máy biến áp yêu cầu độ chính xác FP16 hoặc FP32.
Quan niệm sai lầm: "Đó chỉ là GPU nhanh hơn"
Máy gia tốc thần kinh sử dụng các kiến trúc cơ bản khác nhau. GPU tuân theo thiết kế xử lý song song có mục đích chung, khiến chúng linh hoạt nhưng kém hiệu quả hơn. Kiến trúc luồng dữ liệu của Hailo{6}}8 khai thác các thuộc tính mạng thần kinh một cách cụ thể, loại bỏ sự phụ thuộc vào DRAM bên ngoài. Chuyên môn hóa này cho phép tiết kiệm năng lượng tốt hơn 20 lần so với các giải pháp GPU cho các tác vụ cụ thể nhưng cũng đồng nghĩa với việc kém linh hoạt hơn đối với khối lượng công việc không sử dụng AI.
Quan niệm sai lầm: "Cắm-và-chạy với bất kỳ máy ảnh nào"
Mặc dù bộ sản phẩm hỗ trợ nhiều camera nhưng việc tích hợp cần có sự hỗ trợ của phần mềm cụ thể. Ban đầu, chỉ có ứng dụng rpicam{1}}có khả năng tích hợp sâu với Hailo, mặc dù sau đó hỗ trợ PiCamera2 đã xuất hiện. Webcam USB hoạt động nhưng yêu cầu các đường dẫn mã khác nhau. Camera MIPI CSI cung cấp khả năng tích hợp chặt chẽ nhất nhưng bạn sẽ cần xác minh khả năng tương thích với kiểu máy ảnh cụ thể của mình.
Quan niệm sai lầm: "Kích thước lô lớn hơn luôn đồng nghĩa với hiệu suất tốt hơn"
Thử nghiệm cho thấy một hạn chế thú vị. Hiệu suất cải thiện từ kích thước lô 2 (80 FPS) đến kích thước lô 8 (120 FPS), nhưng giảm xuống 100 FPS ở kích thước lô 16 do hạn chế về băng thông PCIe. Điều này cho thấy giao diện PCIe Gen 3 x1 của Pi 5 trở thành nút thắt cổ chai với các lô lớn hơn chứ không phải bản thân bộ xử lý thần kinh.
Câu hỏi thường gặp
Bộ AI có thể chạy ChatGPT hoặc LLM tương tự không?
Không hiệu quả ở dạng hiện tại. Hailo-8L thiếu dung lượng bộ nhớ cho các mẫu ngôn ngữ lớn, thường yêu cầu 4-16GB RAM chuyên dụng chỉ dành cho trọng lượng mẫu. Tuy nhiên, các mô hình lượng tử hóa nhỏ hơn với tham số 1B có thể chạy với những hạn chế hiệu suất đáng kể. Dự án Llama được phân phối chứng tỏ việc chạy LLaMA 3 8B trên bốn đơn vị Pi 4 với tốc độ 1,6 mã thông báo mỗi giây, mặc dù điều này không thúc đẩy khả năng tăng tốc của Bộ công cụ AI.
Sự khác biệt giữa AI Kit và AI HAT+ là gì?
Bộ AI sử dụng mô-đun M.2 cắm vào bo mạch bộ chuyển đổi M.2 HAT+. AI HAT+ tích hợp chip Hailo trực tiếp lên bo mạch HAT đầy đủ và có 13 biến thể TOPS ($70) và 26 TOPS ($110). Phiên bản 26 TOPS sử dụng Hailo-8 thay vì Hailo-8L. Cả hai đều sử dụng phần mềm và thư viện giống hệt nhau nên việc lựa chọn giữa chúng tùy thuộc vào việc bạn có cần khe cắm M.2 cho các mục đích khác hay không.
Mức tiêu thụ điện năng so với suy luận trên đám mây như thế nào?
Thấp hơn đáng kể. Hệ thống Pi 5 hoàn chỉnh với khả năng suy luận AI chủ động tiêu thụ khoảng 10W, khoảng 240Wh mỗi ngày nếu chạy liên tục. Suy luận trên đám mây sẽ yêu cầu truyền phát video liên tục (tải lên 2-4Mbps) cộng với các lệnh gọi API để xử lý, thường tiêu tốn nhiều chi phí băng thông và năng lượng hơn tại trung tâm dữ liệu. Đối với ứng dụng camera an ninh 24/7, việc xử lý cục bộ có thể tiết kiệm 20-40 USD hàng tháng về băng thông và phí API đám mây.
Tôi có thể sử dụng nhiều Bộ công cụ AI trên một Raspberry Pi 5 không?
Không trực tiếp trên một Pi 5, chỉ có một giao diện PCIe. Tuy nhiên, Jeff Geerling đã chứng minh việc kết nối nhiều bộ tăng tốc bằng bộ chuyển mạch PCIe và bảng mở rộng, đạt tổng cộng 51 TOPS trên nhiều chip Hailo và Coral khác nhau, mặc dù cấu hình này không được hỗ trợ chính thức và yêu cầu nguồn điện bên ngoài.
Tôi mong đợi tốc độ khung hình nào cho các ứng dụng-thời gian thực?
Nó phụ thuộc vào độ phức tạp mô hình và độ phân giải đầu vào của bạn. YOLOv8 ở độ phân giải 640x640 đạt được 80-120 FPS tùy thuộc vào kích thước lô. Các mô hình đơn giản hơn như MobileNet có thể đạt tới 200+ FPS. Các mẫu nặng hơn như YOLOv8x có thể giảm xuống 30-40 FPS. Để so sánh, tầm nhìn của con người cảm nhận chuyển động mượt mà ở tốc độ 24-30 FPS, vì vậy hầu hết các ứng dụng thời gian thực đều có khoảng không gian hiệu suất thoải mái.
Việc đào tạo các mô hình tùy chỉnh khó khăn như thế nào?
Giai đoạn đào tạo diễn ra trên máy tính để bàn hoặc phiên bản đám mây của bạn bằng cách sử dụng quy trình làm việc TensorFlow hoặc PyTorch tiêu chuẩn-chip Hailo không tham gia đào tạo. Quá trình chuyển đổi yêu cầu học Trình biên dịch luồng dữ liệu Hailo, có đường cong học tập nhưng bao gồm tài liệu toàn diện. Dự kiến 2-3 ngày để chạy mô hình tùy chỉnh đầu tiên của bạn nếu bạn đã quen với việc đào tạo mạng thần kinh. Trình biên dịch tự động xử lý lượng tử hóa, mặc dù bạn sẽ cần một tập dữ liệu hiệu chuẩn đại diện.
Nó có hoạt động với-máy tính bo mạch đơn khác không?
Bộ công cụ AI đặc biệt nhắm đến giao diện và hệ số dạng PCIe của Raspberry Pi 5. Tuy nhiên, mô-đun Hailo-8L M.2 cơ bản là thành phần tiêu chuẩn. Các thiết bị như reComputer R1000 của Seeed Studio có khe cắm M.2 có thể chứa mô-đun Hailo, mặc dù bạn sẽ cần chuyển ngăn xếp phần mềm. Về mặt lý thuyết, các SBC khác có khe cắm M.2 (Rock 5B, Orange Pi 5) có thể hoạt động nhưng đòi hỏi nỗ lực tích hợp phần mềm đáng kể.
Những dự án nào mọi người thực sự đang xây dựng?
Cộng đồng đã tạo ra các ứng dụng đa dạng. Các dự án bao gồm máy phân phối thuốc thông minh sử dụng tính năng nhận dạng đối tượng, camera động vật hoang dã có khả năng nhận dạng loài và cảnh báo trên bàn lộn xộn để đếm các đối tượng. Ước tính tư thế cho phép các ứng dụng theo dõi hoạt động thể chất theo dõi hình thức tập thể dục và đếm số lần lặp lại. Người dùng công nghiệp triển khai bộ công cụ này để kiểm tra kiểm soát chất lượng, đếm sản phẩm trên băng chuyền và phát hiện các vi phạm an toàn trong nguồn cấp dữ liệu video theo thời gian thực.
Đưa ra quyết định của bạn: Khi bộ AI có ý nghĩa
Bộ công cụ AI Raspberry Pi tỏa sáng trong các tình huống cụ thể. Điều này lý tưởng khi bạn cần thị giác máy tính-theo thời gian thực bằng nguồn pin hoặc trong môi trường nhúng nơi kết nối đám mây không đáng tin cậy. Chuông cửa thông minh, camera động vật hoang dã, hệ thống kiểm tra công nghiệp và ứng dụng rô-bốt là những nhiệm vụ-được ưu tiên yêu cầu xử lý AI liên tục với yêu cầu chặt chẽ về độ trễ và ngân sách điện năng.
Hãy xem xét các lựa chọn thay thế khi yêu cầu của bạn khác nhau. Nếu bạn chủ yếu quan tâm đến LLM hoặc xử lý ngôn ngữ tự nhiên, bạn sẽ cần phần cứng khác-có thể là GPU dành cho máy tính để bàn hoặc quyền truy cập API đám mây. Đối với các nhiệm vụ AI không thường xuyên mà độ trễ không quan trọng, các dịch vụ đám mây có thể tỏ ra hiệu quả hơn về mặt chi phí mặc dù chi phí cho mỗi-suy luận cao hơn.
Mức giá 70 USD định vị bộ công cụ này như một nền tảng thử nghiệm có giá cả phải chăng để học hỏi nhưng vẫn đủ mạnh cho các nguyên mẫu sản xuất. Với chiến lược nhấn mạnh của Raspberry Pi vào khả năng AI và 22 sản phẩm ra mắt vào năm 2024, hệ sinh thái phần mềm sẽ tiếp tục trưởng thành, khiến khoản đầu tư trở nên có giá trị hơn theo thời gian.
Ngân sách thêm 100-150 USD cho các bộ phận hỗ trợ: nguồn điện chất lượng, mô-đun máy ảnh, hộp đựng có bộ làm mát và thẻ nhớ microSD có đủ tốc độ. Tổng chi phí hệ thống từ 200-250 USD vẫn thấp hơn 50-70% so với các hệ thống camera AI thương mại trong khi vẫn mang lại khả năng tự do tùy chỉnh hoàn toàn.
Quỹ đạo của thị trường AI biên cho thấy bây giờ là thời điểm chiến lược để xây dựng kỹ năng với những công cụ này. Cho dù bạn là sinh viên đang khám phá các lựa chọn nghề nghiệp, nhà sản xuất tạo nguyên mẫu sản phẩm hay kỹ sư đánh giá công nghệ để triển khai công nghiệp, thì việc hiểu cách hoạt động của Raspberry Pi AI Kit sẽ mang lại trải nghiệm thực tế-với các kiến trúc điện toán sẽ hỗ trợ các thiết bị thông minh trong thập kỷ tới.




