Nội dung tiếp theo về AI chúng ta cần tìm hiểu là về Computer Vision (Thị giác máy tính), thứ đã giúp máy tính có thể “nhìn” được, khiến các thiết bị có khả năng nhìn và nhận biết giống như trí tuệ con người. Cho đến nay, thị giác máy tính đã trở nên phổ biến và ứng dụng quan trọng trong nhiều lĩnh vực khác nhau trong cuộc sống.
Computer Vision (Thị giác máy tính) là gì?
Định nghĩa
Computer Vision (Thị giác máy tính) là một lĩnh vực của trí tuệ nhân tạo (AI) cho phép máy tính và hệ thống suy ra thông tin có ý nghĩa từ hình ảnh kỹ thuật số, video và các đầu vào hình ảnh khác – và thực hiện các hành động hoặc đưa ra các khuyến nghị dựa trên thông tin đó. Nếu trí tuệ nhân tạo cho phép máy tính suy nghĩ, thì thị giác máy tính cho phép chúng nhìn, quan sát và hiểu được.
Ý tưởng
Ý tưởng đằng sau là chỉ dẫn máy tính diễn giải và hiểu hình ảnh trên cơ sở từng điểm ảnh. Đây là nền tảng của lĩnh vực thị giác máy tính. Về mặt kỹ thuật, máy tính sẽ cố gắng trích xuất dữ liệu hình ảnh, quản lý nó và phân tích kết quả bằng các chương trình phần mềm phức tạp.
Thị giác của con người
Thị giác máy tính hoạt động tương tự như thị giác của con người, ngoại trừ việc con người đã có một lợi thế từ đầu. Tầm nhìn con người có lợi thế là đã có cả đời để xác định các đối tượng, khoảng cách xa gần, xem chúng có đang di chuyển hay không và xem có vấn đề gì trong một hình ảnh hay không.
Máy tính được huấn luyện để thực hiện những chức năng này, nhưng phải làm điều đó trong thời gian ngắn hơn nhiều, sử dụng máy ảnh, dữ liệu và thuật toán thay vì võng mạc, dây thần kinh quang và vỏ não thị giác. Vì một hệ thống được huấn luyện để kiểm tra sản phẩm hoặc theo dõi tài sản sản xuất có thể phân tích hàng ngàn sản phẩm hoặc quy trình mỗi phút, nhận ra những khuyết điểm không thể nhìn thấy hoặc vấn đề, nó có thể vượt qua khả năng của con người nhanh chóng.
Số lượng dữ liệu mà chúng ta tạo ra ngày nay là rất lớn – 2,5 tỷ tỷ byte dữ liệu mỗi ngày. Sự gia tăng về dữ liệu này đã được chứng minh là một trong những yếu tố thúc đẩy sự phát triển của thị giác máy tính.
Lịch sử của thị giác máy tính
Trong gần 60 năm qua, những nhà nghiên cứu và nhà phát triển đã cố gắng dạy cho máy tính cách nhìn và hiểu thông tin hình ảnh. Vào năm 1959, các nhà thần kinh sinh lý bắt đầu cho một con mèo xem nhiều hình ảnh khác nhau để liên kết các phản ứng trong não động vật. Họ phát hiện ra rằng mèo đặc biệt nhạy cảm với các góc và đường thẳng sắc nét, điều này cho thấy rằng đường thẳng và các hình dạng cơ bản khác là nền tảng để phân tích hình ảnh được xây dựng.
Xung quanh cùng thời kỳ, công nghệ quét ảnh đầu tiên xuất hiện, cho phép máy tính quét ảnh và lấy bản sao kỹ thuật số của chúng. Điều này cho phép máy tính kỹ số hóa và lưu trữ hình ảnh. Vào những năm 1960, trí tuệ nhân tạo (AI) trở thành một lĩnh vực nghiên cứu, và nỗ lực giải quyết khả năng bắt chước thị giác con người của AI đã bắt đầu.
Các nhà khoa học thần kinh đã chứng minh vào năm 1982 rằng thị giác hoạt động theo cấu trúc phân cấp và trình bày các kỹ thuật cho phép máy tính nhận diện các cạnh, đỉnh, cung và các cấu trúc cơ bản khác. Đồng thời, các nhà khoa học dữ liệu đã tạo ra một mạng lưới nhận dạng mẫu của các tế bào. Vào năm 2000, các nhà nghiên cứu tập trung nỗ lực vào việc nhận dạng đối tượng, và vào năm tiếp theo, ngành công nghiệp chứng kiến những giải pháp nhận diện khuôn mặt thời gian thực đầu tiên.
Cách hoạt động của thị giác máy tính
Thị giác máy tính đòi hỏi một lượng lớn dữ liệu. Nó chạy các phân tích dữ liệu lặp đi lặp lại cho đến khi nhận ra các khác biệt và cuối cùng nhận diện hình ảnh.
Hai công nghệ cần thiết được sử dụng để thực hiện điều này là một loại học máy gọi là deep learning và mạng thần kinh tích chập (CNN).
Vai trò của Deep learning
Học máy sử dụng mô hình thuật toán cho phép máy tính tự học về ngữ cảnh của dữ liệu hình ảnh. Nếu đủ dữ liệu được đưa qua mô hình, máy tính sẽ “nhìn” vào dữ liệu và tự học để phân biệt các hình ảnh khác nhau. Các thuật toán cho phép máy tính tự học, thay vì có ai đó lập trình để nhận diện một hình ảnh.
Vai trò của Convolutional Neural Networks
Một mạng thần kinh tích chập (CNN) giúp cho mô hình học máy hoặc deep learning “nhìn” bằng cách phân tách hình ảnh thành các pixel được gán nhãn hoặc nhãn. Nó sử dụng các nhãn để thực hiện các phép tích chập (một phép toán toán học trên hai hàm để tạo ra một hàm thứ ba) và đưa ra dự đoán về những gì nó “nhìn thấy”. Mạng thần kinh chạy các phép tích chập và kiểm tra độ chính xác của dự đoán trong một loạt các vòng lặp cho đến khi các dự đoán bắt đầu trở thành sự thật. Sau đó, nó nhận diện hoặc nhìn thấy hình ảnh một cách tương tự như con người.
Tương tự như việc một con người nhìn một hình ảnh từ xa, một CNN ban đầu phân biệt các cạnh cứng và hình dạng đơn giản, sau đó điền thông tin khi chạy các vòng lặp của các dự đoán. Một CNN được sử dụng để hiểu các hình ảnh đơn lẻ. Mạng thần kinh tái phát (RNN) được sử dụng theo cách tương tự cho các ứng dụng video để giúp máy tính hiểu cách các hình ảnh trong một loạt khung hình liên quan đến nhau.
Ứng dụng của thị giác máy tính
Hiện nay, có rất nhiều nghiên cứu đang được thực hiện trong lĩnh vực thị giác máy tính, nhưng đó không chỉ là nghiên cứu. Các ứng dụng thực tế cho thấy tầm quan trọng của thị giác máy tính đối với các hoạt động trong kinh doanh, giải trí, giao thông, chăm sóc sức khỏe và cuộc sống hàng ngày.
Một yếu tố quan trọng thúc đẩy sự phát triển của các ứng dụng này là sự dồi dào của thông tin hình ảnh đến từ điện thoại thông minh, hệ thống an ninh, camera giao thông và các thiết bị khác được trang bị tính năng hình ảnh. Dữ liệu này có thể đóng vai trò quan trọng trong các hoạt động của các ngành công nghiệp khác nhau, nhưng hiện nay vẫn chưa được sử dụng đầy đủ. Thông tin này tạo ra một nền tảng để huấn luyện các ứng dụng thị giác máy tính và một bước đệm để chúng trở thành một phần của nhiều hoạt động của con người:
- Dịch thuật qua hình ảnh
Google Translate cho phép người dùng chỉ cần nhắm máy ảnh điện thoại vào một biển báo bằng ngôn ngữ khác và gần như ngay lập tức có thể nhận được bản dịch của biển báo sang ngôn ngữ ưa thích của họ.
- Xe tự lái
Với việc sử dụng thị giác máy tính, các phương tiện tự động có thể hiểu môi trường xung quanh chúng. Nhiều camera ghi lại môi trường xung quanh phương tiện, sau đó gửi vào các thuật toán thị giác máy tính để phân tích các bức ảnh cùng lúc để xác định lề đường, giải mã biển báo và nhìn thấy các phương tiện khác, chướng ngại vật và người. Sau đó, xe tự động có thể tự điều hướng trên đường phố và xa lộ, tránh vượt qua các trở ngại và đưa hành khách đến nơi an toàn.
- Nhận diện khuôn mặt
Các chương trình nhận diện khuôn mặt, sử dụng thị giác máy tính để nhận ra cá nhân trong các bức ảnh, phụ thuộc rất nhiều vào lĩnh vực nghiên cứu này. Các đặc điểm khuôn mặt trong ảnh được xác định bởi các thuật toán thị giác máy tính, sau đó khớp với các hồ sơ khuôn mặt đã lưu trữ. Để xác minh danh tính của những người sử dụng thiết bị điện tử tiêu dùng, việc nhận diện khuôn mặt đang được sử dụng ngày càng nhiều. Nhận diện khuôn mặt được sử dụng trong các ứng dụng mạng xã hội cho việc phát hiện người dùng và gắn nhãn người dùng. Vì cùng một lý do, cơ quan chức năng sử dụng phần mềm nhận diện khuôn mặt để truy tìm tội phạm thông qua hình ảnh giám sát.
- Mở rộng và kết hợp Thực tế ảo
Thực tế mở rộng, cho phép máy tính như điện thoại thông minh và công nghệ đeo trên cơ thể chèn hoặc nhúng nội dung kỹ thuật số vào môi trường thực tế, cũng phụ thuộc nhiều vào thị giác máy tính. Các vật phẩm ảo có thể được đặt trong môi trường thực tế thông qua thị giác máy tính trong các thiết bị thực tế mở rộng. Để tạo ra độ sâu và tỷ lệ cũng như định vị các vật phẩm ảo trong môi trường thực, các ứng dụng thực tế mở rộng phụ thuộc vào các kỹ thuật thị giác máy tính để nhận diện các bề mặt như bàn, trần nhà và sàn nhà.
- Chăm sóc sức khoẻ
Thị giác máy tính đã đóng góp đáng kể vào việc phát triển công nghệ y tế. Tự động hóa quá trình tìm kiếm những nốt ruồi ác tính trên da của một người hoặc xác định các chỉ số trong kết quả chụp X-quang hay MRI chỉ là một trong nhiều ứng dụng của các thuật toán thị giác máy tính.
Vì sao thị giác máy tính quan trọng với chúng ta?
Từ những bức ảnh tự chụp đến những hình ảnh cảnh quan, chúng ta ngày nay bị tràn ngập bởi mọi loại hình ảnh. Theo một báo cáo của Internet Trends, mỗi ngày, mọi người tải lên hơn 1,8 tỷ hình ảnh, và đó chỉ là số lượng hình ảnh được tải lên. Hãy tưởng tượng xem con số sẽ là bao nhiêu nếu bạn tính cả những hình ảnh được lưu trữ trên điện thoại. Chúng ta tiêu thụ hơn 4.146.600 video trên YouTube và gửi 103.447.520 thư rác mỗi ngày.
Một lần nữa, đó chỉ là một phần nhỏ – giao tiếp, truyền thông và giải trí, internet vạn vật đều đóng góp tích cực vào con số này. Nội dung hình ảnh phong phú này đòi hỏi phân tích và hiểu biết. Thị giác máy tính giúp làm điều đó bằng cách dạy máy tính “nhìn thấy” những hình ảnh và video này.
Ngoài ra, nhờ tính kết nối dễ dàng, internet dễ dàng tiếp cận được bởi mọi người ngày nay. Trẻ em đặc biệt dễ bị lạm dụng và gặp phải nội dung “độc hại” trực tuyến. Ngoài việc tự động hóa nhiều chức năng, thị giác máy tính cũng đảm bảo sự kiểm duyệt và giám sát nội dung hình ảnh trực tuyến. Vì nội dung có sẵn trên internet chủ yếu là văn bản, hình ảnh và âm thanh.
Thị giác máy tính sử dụng thuật toán để đọc và chỉ mục hình ảnh. Các công cụ tìm kiếm phổ biến như Google và YouTube sử dụng thị giác máy tính để quét qua hình ảnh và video để phê duyệt chúng để xuất hiện. Bằng cách làm như vậy, họ không chỉ cung cấp cho người dùng nội dung liên quan mà còn bảo vệ khỏi lạm dụng và “độc hại” trực tuyến.
Những thách thức của Thị giác máy tính
Xây dựng một máy tính có thị giác như con người đòi hỏi những thách thức khá khó khăn, và không chỉ vì những thách thức kỹ thuật liên quan đến việc thực hiện điều đó trên máy tính. Chúng ta vẫn còn rất nhiều điều để hiểu về bản chất của thị giác con người.
Để hiểu rõ hơn về thị giác sinh học, ta phải học không chỉ cách các cơ quan nhận thức như mắt hoạt động, mà còn cách não bộ xử lý những gì mắt nhìn thấy. Quá trình này đã được ánh xạ ra và những thủ thuật và lối tắt của nó đã được khám phá, nhưng, như với bất kỳ nghiên cứu về não bộ nào, vẫn còn rất nhiều điều cần khám phá.
Đọc thêm bài viết trong series Giải Nén AI: