Thứ Ba, 24 tháng 4, 2018

✪ ✪ ✪ TỌA ĐÀM: CÔNG NGHỆ LẬP TRÌNH WEB - HIỆN TẠI & TƯƠNG LAI

Chúng ta đều có thể thấy ngành công nghiệp phát triển web thay đổi mau chóng với tốc độ chóng mặt. Nếu đã bước chân vào thế giới lập trình web này, bạn sẽ phải liên tiếp cập nhật và đuổi kịp những công nghệ và xu hướng phát triển mới nhất. Những công nghệ bạn đã, đang và sẽ dùng sẽ chính là thế mạnh tiềm năng để bạn phát triển trong ngành. Điều quan trọng nhất đó là hãy liên tiếp cập nhật và "nghe ngóng" những đổi thay mới nhất từng giờ.

Chính vì vậy chương trình TỌA ĐÀM: CÔNG NGHỆ LẬP TRÌNH WEB - ngày nay & TƯƠNG LAI sẽ một phần nào đó giúp các bạn có được những cái nhìn sâu sắc, những kiến thức hữu dụng cùng cơ hội việc làm trong chương trình.

Đăng ký ngay tại đây

✪ NỘI DUNG CHƯƠNG TRÌNH

 ⏩ Chủ đề: CÔNG NGHỆ LẬP TRÌNH WEB - HIỆN TẠI & TƯƠNG LAI

 🕢 Thời gian: 18h30 - 21h00

 📆 05/05/2018

 🗽 Hội trường P5, tầng 3, tòa nhà 25T2, Nguyễn Thị Thập, Hà Nội

 👉 Số lượng tham dự: 80 người

================

 👉 Khách mời chia sẻ:

 👤 Ông Ông Cao Văn Việt (Project Technical Leader - FPT Software Services (FSS))

 👤 Ông Phạm Tuấn Dương (Team Leader - Chính quyền điện tử Công ty CNTT VNPT (VNPT IT))

 👤 Ông Mai Văn Hà - Trưởng phòng Công nghệ Công ty Thiên Hoàng Group)

================

 ☎️ Liên hệ: 0902 242 996

 📬 Email: info@niithanoi.vn

 🌏 Web: icthanoi.edu.vn

Thứ Sáu, 20 tháng 4, 2018

Top10 thủ thuật dành cho machine learning newbie


Trong machine learning , có một thứ gọi là định luật ” No Free Lunch “. Nói một cách ngắn gọn, điều đó cho rằng không có một thuật toán nào là tốt nhất trong mọi vấn đề và nó đặc biệt phù hợp với supervised learning – việc học dưới sự giám sát ( thí dụ là predictive modeling – mô hình tiên lượng). 

thí dụ, bạn không thể nói rằng các kết nối nơ-ron luôn tốt hơn cây quyết định – decision trees (hay ngược lại). Có rất nhiều nhân tố ảnh hưởng chẳng hạn như kích tấc và cấu trúc của bộ dữ liệu. 

Do đó, bạn nên thử nhiều thuật toán khác nhau cho vấn đề của bạn, trong khi sử dụng một “ tập kiểm tra ” còn lại để đánh giá hiệu suất và chọn ra giải pháp tối ưu nhất. 

Tất nhiên, các thuật toán bạn thử phải phù hợp với vấn đề của bạn, đó là việc bạn chọn đúng công việc cho machine learning. hao hao, nếu bạn cần thu vén nhà cửa, bạn có thể sử dụng máy hút bụi, một cây chổi hoặc một cái giẻ lau, nhưng bạn sẽ không sử dụng một cái xẻng và đào. 
The Big Principle 

Tuy nhiên, có một nguyên tắc chung là cơ sở cho mọi thuật toán machine learning được giám sát cho mô hình tiên lượng. 

Các thuật toán machine learning được biểu hiện như việc học một target function (f) để biến bản đồ đầu vào (X) thành biến xuất (Y): Y = f (X) 

Đây là một nhiệm vụ học tập tổng quát mà chúng ta muốn đưa ra những tiên đoán trong mai sau (Y) với các tỉ dụ mới về các biến đầu vào (X). Chúng ta không biết chức năng (f) trông như thế nào hoặc dạng của nó. Nếu chúng ta làm như vậy, chúng ta sẽ dùng nó trực tiếp và không cần phải học nó từ dữ liệu bằng cách sử dụng các thuật toán machine learning. 

Phương thức phổ thông nhất của machine learning là học cách lập bản đồ Y = f (X) để đưa ra dự đoán của Y cho biến X mới. Điều này được gọi là mô hình tiên đoán hoặc phân tích tiên lượng và đích của chúng ta là làm cho các dự đoán chính xác nhất có thể được. 

Đối với những người mới học về machine learning muốn hiểu được căn bản của nó, đây sẽ là một chuyến khám phá nhanh về 10 thuật toán machine learning hàng đầu được các nhà khoa học dữ liệu dùng. 
Linear Regression – Hồi quy tuyến tính 

Hồi quy tuyến tính có nhẽ là một trong những thuật toán lừng danh nhất và được hiểu rõ nhất trong thống kê và machine learning. 

Mô hình tiên đoán chính yếu quan hoài đến việc giảm thiểu sơ sót của mô hình hoặc đưa ra các dự đoán chuẩn xác nhất có thể, với một chi phí giải trình. Chúng tôi sẽ mượn, sử dụng lại và lấy các thuật toán từ nhiều lĩnh vực khác nhau, bao gồm số liệu thống kê và sử dụng chúng cho những mục đích này. 

trình diễn hồi quy tuyến tính là một phương trình biểu lộ một đường thẳng bộc lộ hợp nhất mối quan hệ giữa các biến đầu vào (x) và các biến đầu ra (y), bằng cách tìm các trọng số cụ thể cho các biến đầu vào được gọi là các hệ số (B). 

 


tỉ dụ: y = B0 + B1 * x 

Chúng ta sẽ dự đoán y với biến x cho trước và mục tiêu của thuật toán hồi quy tuyến tính là tìm các giá trị cho các hệ số B0 và B1. 

Các kĩ thuật khác nhau có thể được dùng để tìm mô hình hồi quy tuyến tính từ dữ liệu, chẳng hạn như một giải pháp đại số tuyến tính cho Ordinary least square và việc tối ưu hóa Gradient descent. 

Hồi quy tuyến tính đã được phát minh khoảng hơn 200 năm và đã được nghiên cứu rộng rãi. Một số lề luật tốt khi sử dụng kĩ thuật này là loại bỏ các biến hao hao nhau (correlated) và để loại bỏ bớt yếu tố sao nhãng từ dữ liệu của bạn, nếu có thể. Đây là một kĩ thuật đơn giản và chóng vánh, và là thuật toán tốt trước tiên để thử. 

2. Logistic Regression – Hồi quy logistic 

Hồi quy logistic là một thuật toán khác được mượn bởi machine learning từ lĩnh vực thống kê. Đây là phương thức tốt nhất cho các vấn đề phân loại nhị phân (vấn đề với hai lớp giá trị). 

Hồi quy logistic giống như hồi quy tuyến tính với mục đích là để tìm ra các giá trị cho các hệ số mà trọng lượng mỗi biến đầu vào. Không giống như hồi quy tuyến tính, dự đoán đầu ra được chuyển đổi bằng cách sử dụng một hàm không tuyến tính được gọi là hàm logistic. 

Hàm logistic trông giống như một S lớn và sẽ biến đổi bất kỳ giá trị nào thành 0-1. Điều này rất có ích vị chúng ta có thể áp dụng một quy tắc cho đầu ra của hàm logistic để tăng giá trị cho 0 và 1 (thí dụ IF ít hơn 0.5 sau đó đầu ra 1) và dự đoán một lớp giá trị. 

 


Vì cách mô hình được học, các dự đoán thực hiện bởi hồi quy logistic cũng có thể được dùng như là xác suất của một thí dụ dữ liệu nhất mực thuộc lớp 0 hoặc lớp 1. Điều này có thể có ích cho các vấn đề khi bạn cần đưa ra nhiều lý do cho một dự đoán. 

Giống như hồi quy tuyến tính, hồi quy logistic hoạt động tốt hơn khi bạn loại bỏ các thuộc tính không liên hệ đến biến đầu ra cũng như các tính chất hao hao nhau (correlated). Đó là một mô hình có thể học hỏi nhanh và có hiệu quả với các vấn đề phân loại nhị phân. 

3. Linear Discriminant Analysis – phân tích phân loại tuyến tính 

Hồi quy Logistic là một thuật toán phân loại truyền thống giới hạn vào các vấn đề phân loại hai lớp. Nếu bạn có nhiều hơn hai lớp thì thuật toán phân tách phân loại tuyến tính nên được ưu tiên. 

Sự trình bày của LDA khá đơn giản. Nó bao gồm các thuộc tính thống kê của dữ liệu của bạn, được tính cho mỗi lớp. Đối với một biến đầu vào độc nhất vô nhị, nó bao gồm: 
Giá trị làng nhàng cho mỗi lớp. 
Phương sai được tính trên tất thảy các lớp. 

 


Dự đoán được thực hiện bằng cách tính giá trị phân biệt cho mỗi lớp và dự đoán cho lớp đó có giá trị lớn nhất. Kĩ thuật giả định rằng dữ liệu có một phân bố Gaussian (bell curve), do đó tốt hơn là bạn nên loại bỏ các giá trị ngoại vi khỏi dữ liệu của bạn trước. Đây là một phương pháp đơn giản và mạnh mẽ để phân loại các vấn đề mô hình dự báo. 

4. Classification and regression trees – Cây phân loại và hồi quy 

Decision trees là một loại thuật toán quan trọng cho mô hình tiên lượng machine learning. 

Sự biểu diễn của mô hình decision tree là một cây nhị phân. Đây là cây nhị phân của bạn từ các thuật toán và cấu trúc dữ liệu, không có gì quá ưa chuộng. Mỗi node đại diện cho một biến đầu vào độc nhất (x) và một điểm phân chia trên biến đó (ví thử biến đó là số). 

 


Các node lá của cây chứa một biến đầu ra (y) được sử dụng để dự đoán. Các tiên lượng được thực hành bằng cách đi trên các nhánh của cây cho đến khi đến một node lá và đưa ra lớp giá trị tại node lá đó. 

Cây có thể học rất nhanh và có thể dùng để dự đoán rất nhanh. Chúng thường chuẩn xác cho nhiều loại vấn đề và dữ liệu của bạn không cần bất kỳ sự chuẩn bị đặc biệt nào. 

5. Naive Bayes 

Naive Bayes là một thuật toán đơn giản nhưng mạnh mẽ về mô hình tiên đoán. 

Mô hình bao gồm hai loại xác suất có thể được tính trực tiếp từ dữ liệu của bạn: 

1) Xác suất của mỗi lớp; 

2) Xác suất có điều kiện cho mỗi lớp với mỗi giá trị x. 

Sau khi tính, mô hình xác suất có thể được sử dụng để đưa ra dự đoán cho dữ liệu mới bằng Định lý Bayes. Khi dữ liệu của bạn có giá trị thực, giả thử một phân phối Gaussian (bell curve) khá phổ thông nên bạn có thể dễ dàng ước tính được các xác suất này. 

 


Naive Bayes được gọi là naive vì nó giả thiết rằng mỗi biến đầu vào là độc lập. Đây là một giả thiết mạnh mẽ và không thực tiễn đối với dữ liệu thực, tuy nhiên, kĩ thuật này rất hiệu quả trên một phạm vi rộng lớn với các vấn đề phức tạp. 
K – Nearest Neighbors – KNN 

Thuật toán KNN rất đơn giản và rất hiệu quả. Mô hình đại diện cho KNN là tất tật dữ liệu tập huấn. Đơn giản phải không? 

Dự đoán được thực hiện cho một điểm dữ liệu mới bằng cách ngần thông qua tất tật tập đào tạo cho hầu hết các tỉ dụ K giống nhau (láng giềng) và tóm tắt biến đầu ra cho các ví dụ K. Đối với các vấn đề hồi quy, đây có thể là biến đầu ra nhàng nhàng, đối với các vấn đề phân loại, đây có thể là mode (hoặc phổ quát nhất) của lớp. 

Bí quyết là làm thế nào để xác định sự giống nhau giữa các trường hợp dữ liệu. Kĩ thuật đơn giản nhất nếu các tính chất của bạn có cùng kích cỡ (ví dụ tuốt đều là inch) là dùng khoảng cách Euclide, một con số bạn có thể tính tình trực tiếp dựa trên sự dị biệt giữa mỗi biến đầu vào. 

 


KNN có thể đề nghị rất nhiều bộ nhớ hoặc không gian để lưu trữ tất cả dữ liệu, nhưng chỉ thực hiện tâm tính (hoặc học) khi một dự báo là cấp thiết, chỉ vừa đúng lúc. Bạn cũng có thể cập nhật và tổ chức các bài tập đào tạo theo thời kì để giữ các dự đoán chuẩn xác. 

Ý tưởng về khoảng cách hoặc độ gần có thể bị phá vỡ với các quy mô rất cao (rất nhiều biến đầu vào) có thể ảnh hưởng bị động đến hiệu suất của thuật toán đối với vấn đề của bạn. Đây được gọi là lời nguyền của quy mô. Nó cho thấy bạn chỉ sử dụng những biến đầu vào có liên tưởng nhất đến dự đoán biến đầu ra. 

7. Học Vector Quantization 

Nhược điểm của K- Nearest Neighbors là bạn cần phải giữ nguyên bộ dữ liệu đào tạo của mình. Thuật toán Quantization về Vector (hay LVQ) là một thuật toán mạng thần kinh nhân tạo cho phép bạn chọn có bao lăm trường hợp đào tạo để treo lên và tìm hiểu chuẩn xác những trường hợp này sẽ như thế nào. 

 


Sự biểu diễn cho LVQ là một tụ hội các codebook vector. Chúng được tuyển lựa tình cờ từ đầu và thích ứng để tóm tắt tốt nhất tập dữ liệu đào tạo qua một số lần lặp của thuật toán. Sau khi học được, các vector mã có thể được dùng để tạo ra các dự đoán giống như K- Nearest Neighbors. Các láng giềng hao hao nhất ( hạp với codebook vector nhất ) được tìm thấy bằng cách tính toán khoảng cách giữa mỗi vector và tỉ dụ dữ liệu mới. Lớp giá trị hoặc (giá trị thực trong trường hợp hồi quy) cho đơn vị phối hợp tốt nhất sau đó sẽ được trả về như dự đoán. Kết quả tốt nhất đạt được khi bạn thay đổi dữ liệu của mình để có cùng khuôn khổ, chẳng hạn như giữa 0 và 1. 

Nếu bạn phát hiện ra rằng KNN mang lại kết quả tốt trên tập dữ liệu của bạn, hãy thử dùng LVQ để giảm đề nghị về bộ nhớ để lưu trữ tuốt tuột tập dữ liệu đào tạo. 

8. Support Vector machines 

Support vector machines có nhẽ là một trong những thuật toán machine learning phổ thông nhất và được nói về nhiều nhất. 

Một hyperplane là một đường phân chia không gian biến đầu vào. Trong SVM, một hyperplance được chọn để phân tích tốt nhất các điểm trong không gian các biến đầu vào theo lớp của chúng, hoặc là lớp 0 hoặc lớp 1. Trong hai chiều, bạn có thể mường tượng nó như một đường thẳng và giả thử rằng sờ soạng các biến đầu vào của chúng ta có thể được tách hoàn toàn bằng dòng này. Thuật toán SVM tìm ra các hệ số dẫn đến sự phân tích tốt nhất của các lớp theo hyperplance. 

 

Khoảng cách giữa hyperplane và điểm dữ liệu gần nhất được gọi là biên. Hyperplane tốt nhất hoặc tối ưu có thể tách riêng hai lớp là dòng có biên lớn nhất. Chỉ những điểm này có hệ trọng đến việc xác định hyperplane và trong việc xây dựng các điểm phân loại. Những điểm này được gọi là các vector tương trợ. Chúng hỗ trợ hoặc xác định hyperplane. Trong thực tiễn, một thuật toán tối ưu được dùng để tìm các giá trị cho các hệ số tối đa hóa biên.


SVM có thể là một trong những phương pháp phân loại hàng đầu mạnh mẽ nhất và đáng thử trên tập dữ liệu của bạn. 

9. Bagging and Random Forest 

Random Forest là một trong những thuật toán machine learning phổ thông nhất và mạnh nhất. Nó là một loại thuật toán machine learning được gọi là Bootstrap Aggregation hoặc Bagging. 

Bootstrap là một phương pháp thống kê mạnh mẽ để ước tính số lượng từ một mẫu dữ liệu. chả hạn như một giá trị làng nhàng. Bạn lấy rất nhiều mẫu dữ liệu của bạn, tính giá trị nhàng nhàng, sau đó nhàng nhàng tất thảy các giá trị nhàng nhàng của bạn để bạn ước lượng tốt hơn giá trị nhàng nhàng thật sự. 

Trong bagging, cách tiếp cận na ná được sử dụng, nhưng thay vì để ước lượng quờ mô hình thống kê, thường là decision trees. Nhiều mẫu dữ liệu đào tạo của bạn được lấy sau đó các mô hình được xây dựng cho mỗi mẫu dữ liệu. Khi bạn cần dự đoán dữ liệu mới, mỗi mô hình sẽ dự đoán và các dự đoán được tính làng nhàng để ước tính tốt hơn giá trị đầu ra thật sự. 

 


Random forest là một sự tinh chỉnh trên phương pháp tiếp cận này, nơi các decision trees được tạo ra để thay vì chọn các điểm phân chia tối ưu, việc phân chia tối ưu được thực hành bằng cách đưa ra sự tình cờ. 

Các mô hình được tạo cho mỗi mẫu dữ liệu khác biệt nhiều so với chúng đáng ra phải như thế, tuy nhiên vẫn chính xác theo những cách độc đáo và khác biệt. phối hợp dự đoán của chúng dẫn đến một ước lượng tốt hơn về giá trị đầu ra cơ bản. 

Nếu bạn nhận được kết quả tốt với một thuật toán có độ biến thiên cao (như decision trees), bạn thường có thể nhận được kết quả tốt hơn bằng cách bagging thuật toán đó. 

10. Boosting và AdaBoost 

Boosting là một kĩ thuật đồng bộ nhằm cầm tạo ra một phương pháp phân loại mạnh từ một số phương pháp phân loại yếu. Điều này được thực hiện bằng cách xây dựng mô hình từ dữ liệu đào tạo, sau đó tạo ra một mô hình thứ hai cố gắng sửa lỗi từ mô hình đầu tiên. Các mô hình được thêm vào cho đến khi tập đào tạo được dự đoán hoàn hảo hoặc thêm một số mô hình tối đa. 

AdaBoost là thuật toán boosting thành công trước hết được phát triển để phân loại nhị phân. Đây là điểm khởi đầu tốt nhất để hiểu về boosting. Các phương pháp boosting đương đại xây dựng trên AdaBoost, đáng chú ý nhất là các máy boosting gradient tình cờ. 

 


AdaBoost được dùng với các decision trees ngắn. Sau khi cây trước hết được tạo ra, hiệu suất của cây trên mỗi trường hợp huấn luyện được sử dụng để đo độ chú ý của cây kế tiếp được tạo nên chú ý đến từng trường hợp đào tạo. Dữ liệu đào tạo khó dự đoán sẽ có trọng lượng hơn, trong khi những trường hợp dễ dự đoán có ít trọng lượng hơn. Các mô hình được tạo theo thứ tự lần lượt, mỗi lần cập nhật các trọng số trên các trường hợp đào tạo ảnh hưởng đến việc học được thực hiện bởi cây kế tiếp trong chuỗi. Sau khi bít tất các cây được xây dựng, dự đoán được thực hiện cho dữ liệu mới, và hiệu suất của mỗi cây được đo lường bằng cách nó đã được về dữ liệu đào tạo. 

bởi vì rất nhiều sự để ý được đưa ra để sửa sai trái theo thuật toán, điều quan trọng là bạn phải có dữ liệu sạch với các giá trị biên. 

Last Takeaway 

Một câu hỏi điển hình được hỏi bởi những người mới bắt đầu, khi phải đối mặt với rất nhiều thuật toán machine learning, là “Tôi nên sử dụng thuật toán nào?” Câu giải đáp cho câu hỏi đổi thay tùy thuộc vào nhiều yếu tố, bao gồm: 

1) kích thước, chất lượng và tính chất của dữ liệu; 

2) thời kì xem; 

3) Tính cấp bách của nhiệm vụ; v 

4) Bạn muốn làm gì với dữ liệu. 

Ngay cả một nhà khoa học dữ liệu giàu kinh nghiệm cũng chẳng thể biết được thuật toán nào sẽ thực hiện tốt nhất trước khi thử các thuật toán khác nhau. mặc dầu có nhiều thuật toán machine learning khác, đây là những thuật toán phổ thông nhất. Nếu bạn là một newbie trong mảng machine learning, đây sẽ là một điểm khởi đầu tốt để tìm hiểu. 
 

Thứ Tư, 18 tháng 4, 2018

Thực hư chuyện Cốc Cốc bí mật thu thập thông tin người dùng

Chuyện Cốc Cốc có bí hiểm lấy thông tin người dùng hay không, đang trở thành đề tài được quan hoài nhiều trên các diễn đàn công nghệ. thông báo này làm người dùng khá lo âu về việc lộ lọt dữ liệu cá nhân chủ nghĩa khi sử dụng trình duyệt Cốc Cốc.

 

 

Như ICTnews đã thông báo, từ sớm khuya 15/4, cộng đồng người dùng Facebook trong nước xuất hiện thông tin nghi vấn “trình duyệt Cốc Cốc thu thập cookies trương mục Facebook của người dùng”. Cụ thể, liên can đến thông tin gây bất thần này, nhóm Facebook SEM Việt Nam cho hay khi bật phần mềm rà soát trên máy tính thì thấy Cốc Cốc có gửi lên server thông tin có chứa cookies account vừa đăng nhập lên domain: https://spell.itim.vn

Cũng theo nguồn tin kết tội này, khi check domain thì thấy đơn vị chủ quản là Công ty TNHH Cốc Cốc và cookies đăng nhập chính là account Facebook. Ngay sau khi thông tin trên đăng, thực tiễn đã làm cho người dùng Facebook trong nước lo lắng về việc bị lộ lọt dữ liệu cá nhân khi sử dụng trình duyệt Cốc Cốc.

Về việc này, chiều qua, ngày 16/4/2018, trong thông tin phản hồi với báo chí, phía Cốc Cốc đã thông tin rằng lỗi trên là kết hợp cả 2 phía: do người dùng dùng song song add-on Ninja Fast Login Facebook, phần mềm dùng cookies người dùng đã copy để đơn giản hóa việc đăng nhập vào Facebook, và tính năng rà soát lỗi chính tả spell checker của Cốc Cốc.

Cốc Cốc cũng khuyến cáo người dùng không nên dùng Ninja Fast Login Facebook hoặc tắt tính năng thẩm tra lỗi chính tả trên trình duyệt Cốc Cốc, cho tới khi Cốc Cốc khắc phục được vấn đề này.

Tuy nhiên, trong bài viết đăng tối qua trên Diễn đàn an ninh mạng Việt Nam WhiteHat.vn, thành viên lockv37 của Diễn đàn này cho rằng câu đáp của Cốc Cốc chưa thực thụ thuyết phục và vẫn còn khá nhiều câu hỏi được đặt ra: thứ nhất, Cốc Cốc có lấy cookies Facebook của người dùng? Thứ hai, tính năng spell check của Cốc Cốc có gửi mọi thông tin của người dùng về cho Cốc Cốc hay không?

“Câu đáp cho câu hỏi thứ nhất là “Không!” Như Cốc Cốc đã thông báo, lỗi này là do người dùng sử dụng đồng thời add-on Ninja Fast Login Facebook, phần mềm dùng cookies người dùng đã copy để đơn giản hóa việc đăng nhập vào Facebook, và tính năng rà lỗi chính tả spell checker của Cốc Cốc”, thành viên lockv37 của Diễn đàn WhiteHat.vn lý giải.

Đáng để ý, với câu hỏi: “Tính năng spell check của Cốc Cốc có gửi mọi thông báo của người dùng về cho Cốc Cốc hay không?”, thành viên lockv37 khẳng định câu giải đáp là “Có”. Minh chứng cho nhận định này, thành viên lockv37 đã thực hiện video so sánh 2 phiên bản của Cốc Cốc trước ngày 16/4 với bản mới phát hành ngày 16/4/2018. Kết quả thí nghiệm cho thấy, trên một phiên bản phát hành trước ngày 16/4, vơ những gì người dùng gõ vào Cốc Cốc đều được gửi về server của Cốc Cốc (https://spell.itim.vn), kể cả tin nhắn riêng. Còn với phiên bản mới nhất được Cốc Cốc phát hành ngày 16/4 thì thông tin dữ liệu người dùng gõ không còn được gửi về server Cốc Cốc. 

Nhận định về vụ việc này, ông Trần Quang Chiến - CEO Công ty an toàn thông tin CyStack cho biết thêm, spell check là tính năng của trình duyệt Cốc Cốc để tự động hoàn thiện câu và thẩm tra chính tả cho người dùng trình duyệt Cốc Cốc. Có thể do giới hạn nào đó hoặc để bảo đảm hiệu năng thì Cốc Cốc sẽ tính hạnh ở một nơi khác, họ gửi các dữ liệu mà người dùng gõ trên trình duyệt đến một hệ thống tính khác rồi trả lại kết quả trên trình duyệt cho người dùng.

“Tính năng này khá có ích cho người dùng. Tuy nhiên dữ liệu người dùng nhập vào trình duyệt có thể bao gồm các thông báo mẫn cảm như: các tin nhắn tây riêng, username, email... Với các tính năng như thế này, tôi cho rằng Cốc Cốc nên có phương án nào đó để không phải gửi các dữ liệu nhạy cảm của người dùng đến nơi khác. Ví dụ như xử lý ngay tại trình duyệt hoặc kết hợp cả trình duyệt và máy chủ dịch vụ của Cốc Cốc”, ông Chiến nêu ý kiến.

liên can đến thông báo thành viên Diễn đàn WhiteHat.vn cho rằng nội dung người dùng gõ trên trình duyệt Cốc Cốc đều được gửi về máy chủ của Cốc Cốc, chiều nay, ngày 17/4, Cốc Cốc đã chính thức có thông báo phản hồi với báo chí.

Theo đó, đại diện truyền thông của Cốc Cốc cho biết, về vấn đề nêu trên, ông Hiếu Phan, Trưởng nhóm phát triển trình duyệt Cốc Cốc cho biết để phục vụ cho tính năng rà chính tả, thêm dấu Cốc Cốc nép phải gửi những gì người dùng vào các trường văn bản (text field) lên máy chủ. 

“Máy chủ sẽ kiểm tra và trả kết quả gợi ý trở lại cho trình duyệt. hết thảy dữ liệu gửi lên là vô danh (anonymous). Cốc Cốc chẳng thể biết chuẩn xác ai đã gửi dữ liệu lên. Các dữ liệu này cũng chỉ được lưu trữ tạm thời để sửa lỗi và cải thiện chất lượng dữ liệu. Đấy là thiết kế thường ngày cho bất cứ một dịch vụ trực tuyến (online service) nào”, ông Hiếu Phan cho hay.

Đại diện Cốc Cốc cũng khẳng định tính năng này không hoạt động ô nhập liệu mật khẩu của người dùng. “bởi vậy không có việc thông báo mật khẩu người dùng được gửi về máy chủ của Cốc Cốc", ông Hiếu cho biết. Cũng theo ông Hiếu bít tất các dữ liệu này đều được mã hoá nên dữ liệu của người dùng hoàn toàn được đảm bảo.

Giải thích thêm về tính năng rà chính tả, đại diện Cốc Cốc cho biết đây là tính năng giúp người dùng tăng hiệu quả gõ văn bản trên môi trường mạng.

Khi người dùng trình duyệt Cốc Cốc bình luận trên một trang báo điện tử hoặc trên Facebook trình duyệt sẽ phát hiện những lỗi chính tả và gợi ý giúp người dùng sửa lỗi. 

Cũng theo đại diện Cốc Cốc, khi người dùng bình luận trên Facebook hoặc gõ văn bản trên bất cứ cửa sổ soạn thảo văn bản trực tuyến nào bằng tiếng Việt không dấu, trình duyệt Cốc Cốc sẽ tự động điền đấu tiếng Việt có dấu với độ chính xác gần 100%. Tính năng này ước tính sẽ giúp giảm bớt 20% thời gian gõ văn bản. “Ngoài ra, tính năng này cũng cho phép phát hiện những lỗi chính tả và đưa ra gợi ý sửa lỗi giúp người dùng có được văn bản tốt nhất”, đại diện Cốc Cốc cho biết.

Dù vậy, những lý giải của đại diện Cốc Cốc hiện vẫn chưa thực thụ thuyết phục được các thành viên WhiteHat.vn. Cụ thể, về quan điểm khẳng định của đại diện Cốc Cốc cho rằng tính năng spell check trên Cốc Cốc “không hoạt động ô nhập liệu mật khẩu của người dùng, bởi thế không có việc thông báo mật khẩu người dùng được gửi về máy chủ của Cốc Cốc. tất cả các dữ liệu này đều được mã hóa nên dữ liệu của người dùng được đảm bảo", một thành viên kỳ cựu của Diễn đàn WhiteHat.vn nhận định. Vấn đề đặt ra là Cốc Cốc không gửi về thông báo mật khẩu hoặc chuỗi chỉ gồm có số. Tuy nhiên, ngoài 2 cái đó ra thì Cốc Cốc có gửi những thông báo khác về, miễn người dùng gõ trên trình duyệt, bao gồm chat, email…

“Và vấn đề lớn nhất là tính năng Spell Check, Google Chrome cũng có nhưng mặc định tắt đi, còn Cốc Cốc thì bật mặc định nhưng không thông tin tường minh cho người sử dụng, về nguyên tắc dữ liệu riêng tây là không đúng. Và nếu Cốc Cốc cho rằng việc gửi thông báo về là đúng và không có vấn đề gì, vậy tại sao phiên bản mới nhất ngày 16/4 lại phải tắt tính năng này đi?”, thành viên Diễn đàn WhiteHat.vn nhấn mạnh.

Bài viết trên được học viện quốc tế NIIT-ICT  Nội thu thập

Thứ Ba, 17 tháng 4, 2018

GMAIL CHUẨN BỊ RA MẮT CHẾ ĐỘ TUYỆT MẬT, NGƯỜI DÙNG SẼ KHÔNG THỂ IN ẤN HAY CHUYỂN TIẾP THƯ NẾU KHÔNG CÓ SỰ CHO PHÉP

Tuy nhiên có thể bạn sẽ nghĩ ngay đến mánh chụp lại màn hình khi bị chặn

Người dùng Gmail trên các trình duyệt sẽ chuẩn bị đón nhật một cập nhật lớn trong một vài tuần tới đây, với những thiết kế và tính năng mới. ngoại giả, Google cũng đang ra mắt Chế độ tuyệt mật mới.

Phiên bản mới của Gmail có nhiều thiết kế mới, kèm theo những tính năng như giải đáp email nhanh, tính năng cho phép báo lại email, một thanh sidebar để đặt lịch hẹn trên lịch ngay bên cạnh tin nhắn, v.v... ngoại giả, Google sẽ còn cho ra mắt Chế độ tuyệt mật. Chế độ này cụ thể là sẽ cho phép người dùng Gmail chặn không cho người nhận chuyển tiếp email, hoặc cấm các hành vi sao chép, tải xuống, hay in email.

Xoá email sau một số ngày nhất quyết

Yêu cầu mật khẩu để mở mail

Google cũng sẽ cho phép người dùng Gmail Yêu cầu một mật mã để có thể mở email, có thể được tạo ra phê chuẩn SMS, hoặc đặt một giới hạn ngày để tiêu huỷ những email đã gửi. Những tính năng này rất giống với những tính năng trong ứng dụng Outlook của Microsoft. Microsoft cũng sẽ bổ sung tính năng ngăn chặn email trong các dịch vụ của Outlook. Những tính năng này dự định sẽ lôi cuốn các đối tượng doanh nghiệp muốn kiểm soát cách email được dùng bởi người nhận, nhưng họ sẽ không ngăn chặn được người dùng chụp ảnh màn hình của một email.

Google cũng chính thức xác nhận rằng bản cập nhật Gmail sẽ ra mắt trong thời kì sớm nhất. Hội nghị các nhà phát triển I/O của Google sẽ bắt đầu vào ngày 8 tháng 5 năm nay, và có khả năng khá cao đó là thiết kế mới của Gmail sẽ có mặt trong hội nghị, kèm theo các nâng cấp mới cho các dịch vụ web của Google.

Bạn nghĩ sao về những đổi thay, cập nhật mới này?

Bài viết trên được học viện quốc tế NIIT-ICT  Nội thu thập