Tổng quan về Trí tuệ nhân tạo, Học máy và học sâu

MVT
Đang cập nhật

Thuật ngữ AI, ML và DL

Artificial Intelligence (AI) hay còn gọi là trí tuệ nhân tạo là một khái niệm nói về trí thông minh được thể hiện bởi máy móc, không giống như trí thông minh tự nhiên được hiển thị bởi con người và động vật, liên quan đến ý thức và cảm xúc.

Machine Learning (ML) hay còn gọi là học máy là quá trình được đưa vào dữ liệu và thuật toán nào đó để nó học và tự động cải thiện thông qua kinh nghiệm. Những thuật toán trong ML nhằm xây dựng mô hình dựa trên dữ liệu mấu, hay được biết đến là trainning data, để đưa ra dự đoán hoặc quyết định. Các thuật toán của ML được sử dụng trong nhiều ứng dụng, chẳng hạn như lọc email, thị giác máy tính, trong đó khó hoặc không khả thi khi phát triển các thuật toán thông thường để thực hiện các tác vụ cần thiết. Nếu như AI là một phạm trù gì đó trừu tượng và rộng lớn, thì có thể hiểu ML là một nhánh con trong AI.

Depp Leaning (DL) hay còn gọi là học sâu (còn được gọi là học có cấu trúc sâu) là một phần của ML dựa trên artificial neural-network. Việc học có thể được giám sát (supervised learning), bán giám sát (semi-superviesed) hoặc không giám sát (unsupervised-learning).

Các kiến trúc của DL như neural-networks, deep belief networks, recurrent neural networks and convolutional neural networks đã được áp dụng cho các lĩnh vực bao gồm thị giác máy tính, nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên, nhận dạng âm thanh, lọc mạng xã hội, máy thông dịch, công nghệ sinh học, phân tích hình ảnh y tế, kiểm tra vật liệu và các chương trình trò chơi trên bàn cờ, ... Gần đây nhất DL được ứng dụng trong một lĩnh vực vô cùng hot đó là nghiên cứu xe hơi tự lái self-driving car.

Tóm lại, DL là một nhánh con trong ML, và ML là một nhánh con của AI

Sự khác nhau giữa các mô hình học và train trong ML

Các thuật toán ML có thể được phân loại chủ yếu phụ thuộc vào sự hiện diện / vắng mặt cũng như phụ thuộc vào kiểu của các biến mục tiêu (biến cần được dự đoán sau quá trính train) .

1. Học có giám sát (Supervised Learning)

Học có giám sát là cho máy được train bằng cách sử dụng dữ liệu được gắn nhãn (labelled data) (có thể hiêu là đưa cho máy quả nho, và nói cho nó biết đó là trái nho). Mô hình được train trên tập dữ liệu có sẵn trước khi bắt đầu đưa ra quyết định với dữ liệu mới.

Biến mục tiêu hay biến cần được dự đoán trong tương lai có 2 kiểu :

  • Biến liên tục : Thường sử dụng mô hình Linear Regression, polynomial Regression, quadratic Regression.
  • Biến có tính phân loại : Thường sử dụng mô hình Logistic regression, Naive Bayes, KNN, SVM, Decision Tree, Gradient Boosting, ADA boosting, Bagging, Random forest etc.

2. Học không giám sát (Unsupervised Learning)

Học không giám sát là cho máy được train với những dữ liệu không được gắn nhãn (unlabelled data) (có thể hiểu đưa cho máy trái cam nhưng không nói cho máy biết đó là trái gì). Nó tự động suy ra các mẫu và mối quan hệ trong dữ liệu bằng cách tạo các cụm. Mô hình học thông qua các quan sát và cấu trúc suy luận trong dữ liệu. Phân tích thành phần chính, Phân tích nhân tố, Phân tích giá trị đơn lẻ, v.v.

3. Reinforcement learning (Học tăng cường)

Mô hình học thông qua phương pháp thử và sai. Loại học này liên quan đến một tác nhân sẽ tương tác với môi trường để tạo ra các hành động và sau đó phát hiện ra lỗi hoặc phần thưởng của hành động đó.

Sự khác biệt giữa Machine Learning và Deep Learning

ML liên quan đến những thuật toán học được từ các mẫu dữ liệu và sau đó áp dụng nó vào việc ra quyết định. Ngược lại, DL có thể học thông qua quá trình xử lý dữ liệu và khá giống với bộ não con người, nơi nó xác định điều gì đó, phân tích và đưa ra quyết định

Sự khác biệt chính như sau:

  • Cách thức mà dữ liệu được trình bày vào hệ thống.
  • Các thuật toán ML luôn yêu cầu dữ liệu có cấu trúc, còn DL dựa trên các lớp của mạng nơ-ron nhân tạo.

Điểm khác biệt chính giữa học máy có giám sát và không giám sát

Kỹ thuật học có giám sát đòi hỏi phải truyền vào nó những dữ liệu được gắn nhãn để máy có thể nhận biết đó là gì. VD như để phân loại trái cây trên đĩa, bạn cần phải cho máy nhiều dữ kiện liên quan đến những trái cây đó để máy có thể tự sắp xếp những dữ kiện đó thành những nhóm khác nhau.

Học không giám sát không đòi hỏi phải truyền dữ liệu được gắn nhãn, nó có thể tự sắp xếp các dữ kiện thông qua sự tương đồng trong những dữ liệu khác nhau để đưa về những nhóm khác nhau.

Làm cách nào để có thể chọn các biến quan trọng trong khi làm việc trên tập dữ liệu

Có nhiều cách khác nhau để chọn các biến quan trọng từ tập dữ liệu bao gồm những điều sau:

  • Dựa trên kinh nghiệm có sẵn của bản thân.
  • Xác định và loại bỏ các biến tương quan trước khi hoàn thiện các biến quan trọng
  • Các biến có thể được chọn dựa trên các p-value từ Hồi quy tuyến tính
  • Lựa chọn tiến, lùi và theo từng bước
  • Hồi quy Lasso
  • Sử dụng Random Forest và biểu diễn đồ thị tìm sự tương quan
  • Các tính năng hàng đầu có thể được chọn dựa trên thu thập thông tin cho tập hợp các tính năng có sẵn.

Có rất nhiều thuật toán học máy cho đến bây giờ. Nếu được cung cấp một tập dữ liệu, làm thế nào người ta có thể xác định thuật toán nào sẽ được sử dụng cho tập dữ liệu đó

Thuật toán trong ML được sử dụng hoàn toàn phụ thuộc vào loại dữ liệu trong một tập dữ liệu được cho. Nếu dữ liệu là tuyến tính, thì sử dụng mô hình tuyến tính linear. Nếu dữ liệu phi tuyến tính thì thuật toán đóng gói sẽ hoạt động tốt hơn. Nếu dữ liệu được phân tích / diễn giải cho một số mục đích kinh doanh thì chúng ta có thể sử dụng TreeDecision hoặc SVM. Nếu tập dữ liệu bao gồm hình ảnh, video, âm thanh thì neural network sẽ hữu ích để có được giải pháp chính xác.

Vì vậy, không có số liệu nhất định để quyết định thuật toán nào được sử dụng cho một tình huống nhất định hoặc một tập dữ liệu. Chúng ta cần khám phá dữ liệu bằng EDA (Phân tích dữ liệu khám phá) và hiểu mục đích của việc sử dụng tập dữ liệu để đưa ra thuật toán phù hợp nhất. Vì vậy, điều quan trọng là phải nghiên cứu chi tiết tất cả các thuật toán.

Hiệp phương sai và tương quan khác nhau như thế nào?

Hiệp phương sai đo lường mối liên hệ giữa hai biến và nếu một biến thay đổi thì biến kia thay đổi như thế nào. Nếu giá trị của hiệp phương sai là dương nghĩa là 2 biến cùng tăng nên có mối quan hệ đồng biến và ngược lại, nếu giá trị âm một biến tăng thì biến còn lại sẽ giảm, có mối quan hệ nghịch biến, với điều kiện là tất cả các điều kiện khác không đổi.

Tương quan định lượng mối quan hệ giữa hai biến ngẫu nhiên và chỉ có ba giá trị cụ thể, tức là 1, 0 và -1.

1 biểu thị mối quan hệ tích cực, -1 biểu thị mối quan hệ tiêu cực, và 0 biểu thị rằng hai biến độc lập với nhau.

Sự khác biệt giữa quan hệ nhân quả và mối tương quan

Nhân quả áp dụng cho các tình huống trong đó một hành động, chẳng hạn X, gây ra một kết quả, chẳng hạn như Y, trong khi Tương quan chỉ là liên hệ một hành động (X) với một hành động khác (Y) nhưng X không nhất thiết gây ra Y.

Chúng ta thấy rằng phần mềm máy học hầu như mọi lúc. Làm cách nào để chúng tôi áp dụng Học máy cho Phần cứng

Chúng ta phải xây dựng các thuật toán ML trong System Verilog là một Ngôn ngữ phát triển phần cứng và sau đó lập trình nó lên FPGA để áp dụng Học máy cho phần cứng


Bài viết có liên quan