Giới thiệu về Machine learning

MVT
Đang cập nhật

Machine learning là gì?

Machine leanringlà một nhánh con của trí tuệ nhân tạo (AI) và khoa học dữ liệu (data science) tập trung chủ yếu vào việc xử lý dữ liệu dựa trên các thuật toán nhằm mô phỏng lại cách mà con người học, và độ chính xác được cải thiện dần dần.

Machine learning đóng vai trò vô cùng quan trọng trong việc phát triển lĩnh vực khoa học dữ liệu thông qua những phương thức thống kê, những thuật toán đã được train (đã được học trước đó) để dự đoán hoặc phân loại một nhóm đối tượng cụ thể và để khám phá thông tin chi tiết chính trong các dự án khai thác dữ liệu. Những thông tin chi tiết này sau đó thúc đẩy việc đưa ra quyết định trong các ứng dụng và doanh nghiệp, tác động lý tưởng đến các chỉ số tăng trưởng chính. Khi dữ liệu lớn tiếp tục mở rộng và phát triển, nhu cầu thị trường đối với các nhà khoa học dữ liệu sẽ tăng lên, đòi hỏi họ phải hỗ trợ xác định các câu hỏi kinh doanh phù hợp nhất và sau đó là dữ liệu để trả lời chúng.

Quá trình xử lý trong Machine Learning

  • Dữ liệu cần phải đảm bảo đủ lớn.
  • Đặt vấn đề và xác định kết quả mong muốn được xử lý
  • Định nghĩa các thuộc tính của mô hình, dựa vào kinh nghiệm để xác định thuộc tính nào là thuộc tính quan trọng, thuộc tính nào ít quan trọng.
  • Lựa chọn mô hình dựa trên Các thuật toán học máy được sử dụng để đưa ra dự đoán hoặc phân loại. Dựa trên một số dữ liệu đầu vào, có thể được gắn nhãn hoặc không được gắn nhãn, thuật toán của bạn sẽ đưa ra ước tính về một mẫu trong dữ liệu.
  • Tiến hành dự đoán và đánh giá mô hình
  • Cải thiện mô hình
  • Sử dụng kinh nghiệm để đưa ra đánh giá tính chính xác của mô hình.

Các phương thức của Machine Learning

Supervised machine learning (Máy học có giám sát)

Supervised learning được dùng khi tập có tập dữ liệu cho sẵn giá trị đầu ra để train những thuật toán phân loại (classification), hoặc dự đoán một giá trị nào đó.

Khi dữ liệu đầu vào được đưa vào mô hình, nó sẽ điều chỉnh weights của nó cho đến khi mô hình được lắp một cách thích hợp. Điều này xảy ra như một phần của quy trình xác thực chéo để đảm bảo rằng mô hình tránh trang bị orverfitting hoặc underfitting.

Học có giám sát giúp các tổ chức giải quyết nhiều vấn đề trong thế giới thực trên quy mô lớn. Một vài mô hình được sử rộng rãi như : neural networks, naïve bayes, linear regression, logistic regression, random forest, support vector machine (SVM)

Học không giám sát (Unsupervised machine learning)

Học không giám sát, còn được gọi là học máy không giám sát, sử dụng các thuật toán học máy để phân tích và phân cụm các tập dữ liệu không được gắn nhãn.

Các thuật toán này phát hiện ra các mẫu hoặc nhóm dữ liệu ẩn mà không cần sự can thiệp của con người.

Khả năng phát hiện ra những điểm tương đồng và khác biệt trong thông tin khiến nó trở thành giải pháp lý tưởng để phân tích dữ liệu khám phá, chiến lược bán chéo, phân khúc khách hàng, nhận dạng hình ảnh và mẫu

Những mô hình được sử dụng rộng rãi : neural networks, k-means clustering, probabilistic clustering...

Học bán giám sát (Semi-supervised learning)

Học bán giám sát cung cấp một kết hợp giữa học có giám sát và không giám sát. Trong quá trình train, nó sử dụng một tập dữ liệu có nhãn nhỏ hơn để phân loại và trích xuất tính năng từ một tập dữ liệu lớn hơn, không được gắn nhãn.

Học bán giám sát có thể giải quyết vấn đề không có đủ dữ liệu được gắn nhãn (hoặc không đủ khả năng gắn nhãn đủ dữ liệu) để train lại cho thuật toán học có giám sát.

Reinforcement machine learning

Reinforcement machine learning là một mô hình học máy hành vi tương tự như học có giám sát, nhưng thuật toán không được train bằng cách sử dụng dữ liệu mẫu. Mô hình này học theo cách sử dụng thử và sai. Một chuỗi các kết quả thành công sẽ được củng cố để phát triển khuyến nghị.

Ứng dụng của ML

  • Phát hiện các sai phạm (VD trong MXH, có những từ ngữ vi phạm quy tắc cộng đồng sẽ bị phát hiện)
  • Kết qủa tìm kiếm một từ khóa nào đó
  • Real-time ads on web pages
  • Credit scoring and next
  • Prediction of equipment failures
  • New pricing models
  • Network intrusion detection
  • Recommendation engines
  • Customer Segmentation
  • Text Sentiment Analysis
  • Predicting Customer Churn
  • Pattern and image regconition
  • Email spam filtering
  • Financial Modeling

Bài viết có liên quan