Máy học cho các Seo

bigseo

Lớp 1
19/11/13
116
7
18
#1
Trước đây tôi có tham gia bên www.thegioiseo.com và đã được đọc bài Cơ sở máy học cho nội dung và kết quả SEO tốt hơn, ban đầu tôi cũng chả hiểu Máy học (Machine Learning) là cái quái gì trong Seo cả. Cũng mất 1 thời gian dài nghiền ngẫm bài viết đó và đọc thêm các bài viết khác thì mới hiểu đc cơ bản về Máy học cho các Seo là thế nào? Để nói cho bạn hiểu thì quá dài dòng vậy nên tốt nhất bạn nên đọc lại bài viết trên của thegioiseo.com.

Bài viết này là 1 cách nhìn khác hơn về Máy học trong Seo và chúng ta hãy cùng tìm hiểu vấn đề này!

Kể từ khi Panda và Penguin cập nhật, cộng đồng SEO càng bàn luận nhiều hơn về máy học và cụm từ này vẫn chưa được hiểu hoàn toàn. Chúng ta biết rằng đó là “điều kỳ diệu” đằng sau Panda và Penguin nhưng nó hoạt động như thế nào? Tại sao họ không sử dụng nó sớm hơn? Nó có liên quan gì đến “những đổi mới dữ liệu” định kỳ chúng ta chứng kiến cho cả hai thuật toán này?

Tôi nghĩ rằng máy học sẽ càng lúc càng có vai trò lớn hơn trong SEO, và vì thế tôi nghĩ chúng ta nên có một hiểu biết cơ bản về cách nó hoạt động là điều quan trọng.

Không khẳng định: Đầu tiên, tôi không có chuyên môn về máy học. Thứ hai, tôi dự định sẽ đơn giản hoá những khía cạnh hiện có và bỏ qua một số chi tiết nhất định mà tôi cảm thấy không cần thiết. Mục đích của bài đăng này không phải là mang đến cho bạn một hiểu biết đầy đủ hoặc chi tiết về máy học, mà thay vào đó là một hiểu biết ở mức độ cao hơn, cho phép bạn trả lời được những câu hỏi trong phần viết mở mà một khách hàng có thể hỏi bạn. Cuối cùng, Google là một hộp đen, nên rõ ràng không thể biết chắc chắn chính xác cách nó sẽ làm gì về mọi thứ, nhưng đây là sự giải thích của tôi về những gợi ý mà cộng đồng SEO đã tổng hợp qua thời gian.

Trồng dưa hấu

Máy học thích hợp để sử dụng khi có một vấn đề nhưng không có một câu trả lời chính xác (ví dụ, không có một câu trả lời đúng hoặc sai) và/hoặc vấn đề không có một phương pháp giải quyết mà chúng ta có thể mô tả lại hoàn chỉnh.

Những ví dụ trong đó Máy học không phù hợp là một chương trình máy tính đếm số từ trong một văn bản, thêm các con số lại với nhau, hoặc đếm các liên kết có trong một trang.

Những ví dụ trong đó Máy học sẽ phù hợp là nhận diện ký tự qua quan sát, xác định liệu một email là rác hay không, hoặc xác định một gương mặt trong một tấm ảnh. Trong tất cả những trường hợp đó, gần như một người không thể (người có vẻ làm tốt nhất những việc đó) viết chính xác lại những nhóm quy tắc về cách thực hiện công việc này, mà có thể đưa vào một chương trình máy tính. Hơn nữa, luôn luôn không có một câu trả lời đúng, một thư rác của người này lại là một bảng tin điện tử với người khác.

may hoc.jpg


Giải thích Máy học với Will Critchlow tạo SearchLove 2013 tại London. Tôi thích dưa hấu!
Ví dụ tôi định sử dụng trong bài đăng này là về lựa chọn dưa hấu. Không phải lúc nào cũng chọn được dưa hấu chín, nên lựa chọn được khi chúng chín vừa phải là việc quan trọng. Bất cứ ai đã lựa chọn dưa hấu trong nhiều năm có thể nhìn vào một trái dưa hấu, cảm nhận nó bằng tay, và dựa vào kích cỡ, màu sắc và cảm giác về độ chắc, họ có thể xác định trái đó chưa chín, quá chín hay chín vừa phải. Họ có thể làm điều đó với mức độ chính xác cao. Tuy nhiên, nếu bạn hỏi họ viết ra một danh sách các quy tắc hoặc một biểu đồ phát triển mà bạn hoặc tôi có thể sử dụng để xác định liệu một trái dưa hấu nào đó đã chín hay chưa, thì họ chắc chắn gần như không thể làm được – vấn đề không có một câu trả lời rõ ràng để bạn có thể viết thành những quy tắc. Cũng lưu ý rằng không cần thiết có một câu trả lời đúng hoặc sai – vì thậm chí còn có sự bất đồng ý kiến giữa các nhà nông.

Bạn có thể tưởng tượng rằng điều đó cũng đúng với việc làm thế nào xác định một trang web là trang rác hay không, rất khó hoặc không thể viết một nhóm chính xác những quy tắc áp dụng được, và cũng có kẽ hở để tranh luận.

Những nhà nông bằng máy (Robo-farmers)

Tuy nhiên, điều này không có nghĩa là không thể dạy một cái máy tìm dưa hấu chín, điều đó chắc chắn có thể được. Chúng ta đơn giản chỉ cần một phương thức gần giống với cách con người học kỹ năng này: học qua kinh nghiệm. Đó là lúc Máy học xuất hiện.

Học có giám sát

Chúng ta có thể tạo lập một máy tính (có rất nhiều cách khác nhau, chúng ta không cần biết chi tiết vào lúc này, nhưng phương pháp bạn nghe nhiều là mạng lưới thần kinh nhân tạo) mà chúng ta có thể đưa thông tin về hết trái dưa hấu này đến trái khác (kích cỡ, độ chắc, màu sắc, v.v.), và chúng ta cũng nói với cái máy về việc trái đó đã chín hay chưa. Tập hợp thông tin dưa hấu này là “bộ huấn luyện” và tuỳ thuộc vào mức độ phức tạp của điều đang được học, cần phải có rất nhiều “dưa hấu” (hoặc trang web hoặc bất cứ thứ gì) trong đó.

Qua thời gian, máy tính sẽ bắt đầu xây dựng một mô hình về cách suy nghĩ những đặc điểm khác nhau của quả dưa hấu đóng vai trò trong việc xác định nó chín hay không. Máy học có thể giải quyết những tình huống trong đó tương tác giữa các đặc điểm này có thể tương đối phức tạp (ví dụ, độ chắc của một trái dưa hấu chín có thể thay đổi tuỳ thuộc vào màu sắc của trái và nhiệt độ không khí). Chúng ta thể hiện từng trái dưa hấu trong bộ huấn luyện nhiều lần theo thứ tự lặp lại (tưởng tượng đó là bạn, bây giờ bạn có để ý điều gì đó mà bạn không để ý trước khi bạn có thể quay lại trái dưa hấu đó và học nhiều hơn).

Một khi chúng ta cảm thấy tự tin rằng máy tính đang học việc làm đó, thì chúng ta có thể thực hiện một kiểm tra bằng cách đưa ra dưa hấu từ một tập hợp khác mà nó vẫn chưa được thấy (chúng ta gọi tập hợp dưa hấu này “bộ xác nhận”), nhưng chúng ta không cho biết rằng những trái này chín hay không (hoặc thậm chí nó có thể chín hoặc không chín ở mức độ nào). Chúng ta có thể biết nó học tốt như thế nào từ số lượng dưa hấu máy tính xác định chính xác. Nếu nó không học tốt chúng ta có thể cần cho xem nhiều dưa hấu hơn hoặc chúng ta có thể cần thay đổi một ít thuật toán (bộ “não”) trong bí mật và bắt đầu lại.

Cách tiếp cận này được gọi là học có giám sát, trong đó chúng ta cung cấp thuật toán học với chi tiết về việc những trái dưa hấu ban đầu chín hay không. Vẫn có những phương pháp thay thế, nhưng học có giám sát là điểm bắt đầu tốt nhất và có thể bao hàm một chút những gì Google đang thực hiện.

Một điều cần lưu ý ở đây là cho dù sau khi bạn huấn luyện máy tính để xác định tốt dưa hấu chín, nó cũng không thể viết ra đầy đủ các khía cạnh của nhóm quy tắc mà chúng ta muốn, có thể nhiều hơn những gì nhà nông có thể.

Cập nhật nền tảng Caffeine

Vậy thì những điều này phù hợp như thế nào với tìm kiếm?

Đầu tiên, chúng ta cần quay lại năm 2010 và sự giới thiệu cập nhật nền tảng Caffeine. Chúng ta biết rất ít về nó vào lúc đó, nhưng Caffeine là nguồn gốc của Panda và Penguin. Chính Caffeine đã tạo cho Panda và Penguin tồn tại.

Caffeine cho phép Google cập nhật danh sách nhanh hơn bao giờ hết và cập nhật PageRank cho những phần độc lập của bản đồ liên kết của web với phần còn lại của bản đồ. Trước đó, bạn phải tính toán lại PageRank cho tất cả trang trong web cùng một lúc, bạn không thể chỉ thực hiện với một trang web. Với Caffeine, việc đó đã thay đổi và họ có thể ước tính, với chính xác cao, PageRank được cập nhật cho những phần của web (biểu đồ phụ) chịu trách nhiệm cho những liên kết mới (hoặc đã gỡ bỏ).

Điều này có nghĩa một “danh sách thực tế” đang được cập nhật liên tục hơn là cập nhật theo định kỳ.

Vậy thì, điều này có liên quan gì đến Máy học, và nó đặt ra giai đoạn cho Panda và Penguin như thế nào? Hãy liên kết tất cả lại với nhau…

Panda và Penguin

Caffeine cho phép Google cập nhật PageRank rất nhanh chóng, nhanh hơn bao giờ hết, và điều này có vẻ là bước quan trọng cho phép họ cuối cùng cũng áp dụng Máy học với quy mô như một phần chính yếu của thuật toán.

Vấn đề Panda đặt ra để giải quyết rất giống với vấn đề về xác định liệu một trái dưa hấu chín hay không. Bất kỳ ai đọc bài đăng blog này cũng có thể nhìn nhanh vào một trang web và trong hầu hết các trường hợp nói với tôi trang đó có thông tin rác như thế nào, đó là thông tin có tính chính xác cao. Tuy nhiên, rất ít người có thể viết cho tôi một danh sách chính xác các quy tắc để đánh giá những đặc điểm của trang mà bạn vẫn chưa nhìn thấy trước đó (“nếu có nhiều hơn x liên kết, và có y quảng cáo chiếm z% của màn hình tính từ trên xuống…”). Bạn có thể đưa ra một vài quy tắc rộng, nhưng vấn đề là không có gì áp dụng được cho tất cả các trang. Cũng xem xét rằng liệu bạn (hoặc Google) có thể xây dựng một danh sách các quy tắc nghiêm ngặt như thế, giúp để tránh sự hạn chế dễ dàng hơn.

Google không thể viết cụ thể nhóm những quy tắc để đánh giá trang rác, đó là lý do tại sao trong nhiều năm chúng ta than phiền khi nhìn vào một trang rõ ràng (trong suy nghĩ) là rác nhưng lại có xếp hạng tốt trong Google SERPs.

Lập luận chính xác cũng áp dụng cho Penguin.

Những vấn đề Google đang gặp phải cũng tương tự như vấn đề trồng dưa. Vậy nên tại sao chúng ta không sử dụng Máy học ngay từ ngày đầu?

Huấn luyện

Google có vẻ đã tạo ra một bộ huấn luyện bằng cách để nhóm đánh giá chất lượng cho điểm các trang web về việc trang đó có thông tin rác như thế nào. Họ sẽ có hàng trăm nghìn người đánh giá, tất cả cùng xem xét hàng trăm nghìn trang để tạo ra một danh sách khổng lồ các trang web kèm theo điểm số về mức độ thông tin rác (điểm trung bình từ nhiều người đánh giá). Tôi không chắc chắn 100% về quá trình này sử dụng chính xác hình thức nào, nhưng chúng ta có thể có một hiểu biết chung nhờ giải thích trên.

Bây giờ, hãy nhớ lại, để học được dưa hấu chín là như thế nào chúng ta phải có rất nhiều dưa và chúng ta phải nhìn vào từng quả nhiều lần. Đó là lượng công việc lớn và tốn thời gian, đặc biệt là khi chúng ta phải học và cập nhật hiểu biết (chúng ta gọi đó là “mô hình”) về cách xác định độ chín. Sau bước đó, chúng ta cần thử nghiệm mô hình trên bộ xác nhận (những quả dưa mà chúng ta chưa từng thấy trước đó) để đánh giá liệu mô hình này có hiệu quả hay không.

Trong trường hợp của Google, quá trình này diễn ra trên toàn bộ danh sách. Tôi không rõ về phương thức chính xác họ sẽ sử dụng, nhưng có vẻ rõ ràng rằng áp dụng phương thức “học và kiểm chứng” ở trên cho toàn bộ danh sách cần tập trung nguồn lực rất cao. Máy học cuối cùng cũng có thể thực hiện được là nhờ một phát triển quan trọng mà Caffeine đã tạo ra, có được một danh sách thực và tính toán nhanh hơn chỉ trên một phần của giản đồ. Bạn có thể tưởng tượng rằng trước đó nếu mất hàng giờ (hoặc thậm chí nhiều phút) để tính toán lại giá trị (là PageRank hoặc thước đo mức độ thông tin rác), thực hiện hàng nghìn lần yêu cầu như thế để áp dụng Máy học thì đơn giản là không thể. Khi Caffeine cho phép họ bắt đầu thực hiện được việc đó, hiển thị theo trình tự thời gian cho Panda và sau đó là Penguin trở nên thật sự nhanh chóng, chứng minh rằng khi họ có thể họ sẵn lòng tận dụng Máy học như một phần của thuật toán (và rõ ràng tại sao).

Điều gì xảy ra tiếp theo?

Mỗi giới thiệu về cập nhật Panda và Penguin từ sau đó trở đi là sau khi một mô hình mới (và giả sử đã được cải thiện) đã được tính toán, kiểm tra, và có thể áp dụng như một dấu hiệu cho danh sách thực. Khoảng đầu năm nay, có thông báo rằng Panda sẽ tiếp tục cập nhật và giới thiệu sau mỗi khoảng hơn 10 ngày, những dấu hiệu đó chỉ ra rằng họ đang cải thiện chất lượng và hiệu quả của việc áp dụng Máy học cho danh sách.

may hoc 2.jpg


Hummingbird có vẻ đang tạo nền tảng cho các cập nhật bổ sung tiếp theo.
Tôi hoàn toàn hy vọng chúng ta sẽ nhìn thấy Máy học được áp dụng nhiều hơn nữa vào tất cả các lĩnh vực của Google trong năm tới. Trên thực tế, tôi nghĩ chúng ta đã sẵn sàng chứng kiến thay đổi tiếp theo của hoạt động này với Hummingbird, và tại Distilled chúng tôi đang xem xét cập nhật Hummingbird theo cách đã làm với Caffeine. Khi Hummingbird là một cập nhật thuật toán hơn là cập nhật nền tảng, chúng ta không thể khuấy động cảm giác rằng nó đang đặt ra nền tảng cho điều gì đó vẫn chưa xuất hiện.

Tóm tắt

Tôi hứng khởi với những khả năng của Máy học được áp dụng ở quy mô như thế này, và tôi nghĩ chúng ta sắp chứng kiến rất nhiều việc như thế. Bài đăng này đưa ra một hiểu biết căn bản về điều có liên quan, nhưng tôi sợ khi nói với bạn rằng tôi không chắc chắc nghiên cứu về dưa hấu là chính xác 100%. Tuy nhiên, tôi nghĩ hiểu được khái niệm Máy học có thể thật sự hữu ích khi bạn đang cố gắng hiểu được những thuật toán như Panda và Penguin.

Nếu bạn không hiểu bài viết này thì nên đọc đi đọc lại và nghiên cứu thêm môn trí tuệ nhân tạo được sử dụng trong Search Engine nhé. Nghiêm cấm kêu gào hiểu hay không hiểu!

Ghi rõ nguồn www.waytomarketing.com khi đăng tải lại bài viết này.
Bài viết có tham khảo nội dung của tác giả Tom Anthony (SM).
Bài gốc: Máy học cho các Seo.
 
Sửa lần cuối bởi điều hành viên:

Bạn có quan tâm?

Donate

Thành viên trực tuyến

Không có thành viên trực tuyến.