Các thực thể tấn công đồ thị kiến thức

20/11/13
368
144
43
#1
Trong một thời gian dài Google đã lãnh đạo người dùng hướng về trang web dựa trên chuỗi tìm kiếm, nhưng trong vài năm qua, chúng tôi đã nhìn thấy nhiều thay đổi dẫn đến một mô hình định hướng dữ liệu hơn là tìm kiếm ngữ nghĩa.

Năm 2010, Google đánh dấu một sự kiện quan trọng với việc mua lại Metaweb và cơ sở dữ liệu ngữ nghĩa (bây giờ nó được gọi là Freebase). Cơ sở dữ liệu này sẽ giúp tạo nên Knowledge Graph – kho lưu trữ hơn 570 triệu tìm kiếm cho mọi người, địa điểm và những thứ (thực thể) bao gồm tham chiếu chéo khoảng 18 tỉ. Một cuộc biểu tình thật sự ấn tượng của một công cụ tìm kiếm ngữ nghĩa với dữ liệu có cấu trúc có thể mang đến cho người sử dụng hàng ngày.

Những gì đã thay đổi?

Sự gia tăng các mục Knowledge Graph của Tiến sĩ Pete một vài tuần trước cho thấy một sự thay đổi lớn trong thuật toán. Google đã cố gắng thiết lập một bối cảnh kết hợp sâu xung quanh các đối tượng để thử và hiểu được truy vấn thay vì chỉ nôn ra những gì nó tin là kết quả gần nhất trong một thời gian, nhưng điều này đã được tập trung vào một tập dữ liệu rất chặt chẽ dành cho người có profile cao, địa điểm và mọi thứ.

Có vẻ như đã thay đổi

Trong vài tuần qua, trong khi nhìn vào cách Biểu đồ kiến thức kéo dữ liệu cho nguồn nào đó, tôi đã thực hiện một vài quan sát tổng thể và đã được theo dõi những gì ảnh hưởng đến hoạt động nhất định có trên màn hình hiển thị của bảng thông tin.

Trong thử nghiệm này, tôi đã quan tâm các cấu trúc của Đồ thị kiến thức hơn bất cứ điều gì khác, đó là lý do tại sao tôi đã rất ngạc nhiên khi vài tuần trước, tôi bắt đầu thấy điều này:

do thi.jpg

Có vẻ như là bất cứ ai bây giờ đều có nhu cầu tìm hiểu "Tuổi của Andrew Isidoro", bây giờ nó không những hiển thị tuổi tôi mà còn hiển thị cả ngày sinh của tôi trong một bảng điều khiển thông tin. Sau đó, tôi bắt đầu thăm dò thêm và thấy rằng đây là là thông tin duy nhất mà Google có thể cung cấp cho người dùng về tôi.

Nó cũng hiển thị dữ liệu như nơi sinh (https://www.google.co.uk/search?q=Andrew+Isidoro's+place+of+birth) của tôi và công việc (https://www.google.co.uk/search?q=Andrew+Isidoro's+job ) của tôi. Nó thậm chí có thể trả lời các truy vấn ngôn ngữ tự nhiên và kết nối tôi với các đơn vị khác như trong các truy vấn như: "Andrew Isidoro đi học đâu?".

do thi 2.jpg

và "cha mẹ củaAndrew Isidoro là ai?".

Bây giờ nhiều bạn có thể có một chút sợ hãi về sự riêng tư cá nhân nhưng tôi buộc phải thú nhận điều này. Mặc dù tôi không phải là một người nổi tiếng nhưng tôi có một hồ sơ cá nhân trên Freebase. Các thông tin mà tôi đã nhập vào đây bây giờ có sẵn cho mọi người thấy là một phần sản phẩm tìm kiếm của Google.

Các thực thể được sinh ra như thế nào?

Chú ý: Tôi là một người dùng lâu năm của và đóng góp cho Freebase, tôi đã viết nhiều lần về tiềm năng sử dụng của nó trong tìm kiếm và dưới đây đại diện cho ý kiến của tôi dựa trên sự tương tác với Freebase bên ngoài và các sản phẩm khác của Google.

Sau khi dành thời gian để nghiên cứu đề tài này dường như có cấu trúc xung quanh cách các thực thể được đề xướng trong Đồ thị Kiến thức.

Mối quan hệ

Khi bất cứ ai làm việc với dữ liệu bên ngoài họ sẽ nói cho bạn biết một trong những nhiệm vụ khó khăn nhất là xác định các mức độ tin tưởng trong một tập các dữ liệu. Google cũng không phải là ngoại lệ để có thể đưa ra một câu trả lời dứt khoát cho một truy vấn, họ phải tự tin về độ tin cậy của nó.
Sau một vài thí nghiệm với dữ liệu Freebase, có vẻ như rõ ràng Google là khá chắc chắn về chuỗi "Andrew Isidoro" là tôi. Có một vài lý do tiềm năng vì:

- Nguồn gốc: "Nguồn gốc là thông tin về các tổ chức, hoạt động, và những người tham gia sản xuất một phần dữ liệu có thể được dùng để tạo thành các đánh giá về chất lượng, độ tin cậy hoặc đáng tin cậy."

Tóm lại, nguồn gốc là “người”. Đó là việc tìm kiếm các tác giả ban đầu, người biên tập và duy trì dữ liệu và thông qua thông tin Google có thể bắt đầu đánh giá về độ tin cậy dữ liệu của họ.

Google đã rất thông minh với việc sắp xếp tài khoản người dùng Freebase theo cấu trúc. Để đăng nhập vào tài khoản của bạn, bạn sẽ được yêu cầu đăng nhập thông qua Google, mà các khóa huấn luyện cung cấp cho bộ máy tìm kiếm khổng lồ truy cập vào các thông tin cá nhân và có thể cung cấp một nguồn dữ liệu gốc từ một thành viên Google+.

- Cấu trúc dữ liệu bên ngoài: Gần đây SEO đã được cấu trúc dữ liệu. Sự hiểu biết từ vựng schema.org đã trở thành một phần quan trọng trong tìm kiếm nhưng vẫn còn nhiều thứ chưa được thử nghiệm.
Khi Google thu thập các trang web với đánh dấu cấu trúc, nó có thể dễ dàng trích xuất và hiểu dữ liệu có cấu trúc dựa trên các thẻ đánh dấu và thêm nó vào Đồ thị kiến thức.

Từ lâu Google đã được sử dụng xác minh hai chiều để xác thực các đặc tính web và thậm chí khuyến cáo sử dụng sameAs với Freebase trong tài liệu của nó, vì thế tại sao tôi không cố gắng liên kết trang web cá nhân của tôi vào hồ sơ Freebase của tôi? Tôi đã sử dụng một itemprop đơn giản để trưng bày các mối quan hệ trên blog cá nhân của tôi:

<link itemprop="sameAs" href="<a href="http://www.freebase.com/m/0py84hb" >http://www.freebase.com/m/0py84hb</a>">Andrew Isidoro</a>
Cuối cùng, tên của tôi không hề phổ biến, theo howmanyofme.com chỉ có 2 người ở Mỹ tên là Andrew Isidoro. Hơn nữa, tôi là người duy nhất có tên trong cơ sở dữ liệu Freebase khi tìm kiếm một thực thể liên quan đến một truy vấn cho tên của tôi.

Nguồn dữ liệu

Trong vài tháng qua, tôi đã viết nhiều về Đồ thị kiến thức và đã có cuộc trò chuyện với một số người xung quanh cách Google quyết định các truy vấn để hiển thị bảng thông tin.

Google sử dụng một số nguồn dữ liệu và có vẻ như là mỗi mẫu bảng điều khiển yêu cầu một số nguồn dữ liệu riêng biệt để bắt đầu.

Lấy ví dụ về bảng tuổi của tôi, thông tin này ở cơ sở dữ liệu Freebase nhưng để có sự tin tưởng cần thiết trong kết quả, Google phải xác minh nó với một nguồn thứ cấp. Trong phát minh của họ cho Đồ thị kiến thức, họ liên tục tham khảo nhiều nguồn dữ liệu bảng:

"Nội dung bao gồm ít nhất một mục nội dung được lấy từ một nguồn đầu tiên và ít nhất một mục nội dung thứ hai thu được từ một nguồn thứ hai khác với tài nguyên đầu tiên".

Những tài nguyên này có thể bao gồm bất kỳ thực thể nào cung cấp cho trình thu thập của Google như dữ liệu có cấu trúc bao gồm cả mã được đánh dấu với định dạng, dữ liệu vĩ mô hoặc RDFa, tất cả trong số đó khi được sử dụng hết tiềm năng, chúng đặc biệt tốt trong việc tạo ra các mối quan hệ giữa chúng và các nguồn lực khác.

Hành vi tìm kiếm

Bill Slawski đã viết về những gì có thể ảnh hưởng đến dữ liệu trong bảng, đáng chú ý nhất là truy vấn Google và nhấp chuột có khả năng được sử dụng để xem những gì mọi người quan tâm khi họ thực hiện tìm kiếm liên quan đến một thực thể. Kết quả tìm kiếm của Google cũng có thể được sử dụng để công bố các khía cạnh và các thuộc tính có thể liên quan đến một thực thể.

Chẳng hạn như tìm kiếm cho cụm từ "David Beckham" và đọc lướt qua các tiêu đề và mô tả cho top 100 kết quả tìm kiếm và bạn có thể thấy các thuật ngữ xác định xuất hiện thường xuyên.

Tại sao?

Tiến sĩ Pete đã có một bài viết tuyệt vời trong đó làm nổi bật những gì tôi đang bắt đầu tin là một bước ngoặt lớn trong cách hiển thị dữ liệu trong bảng Google.

do thi 3.jpg

Tuy nhiên, khi Tiến sĩ Pete có cảm giác là Google đã tác động mạnh trên Đồ thị kiến thức để cho danh mục KG xuất hiện thường xuyên hơn, tôi tin rằng đã có một sự thay đổi trong cách họ xác định chất lượng của dữ liệu. Giảm ngưỡng mối quan hệ cần thiết để hiển thị thông tin. Chẳng hạn như chúng tôi không chỉ thấy sự gia tăng về số lượng các bảng hiển thị mà chúng tôi còn nhìn thấy một vài sai sót trong dữ liệu:

do thi 4.jpg

Lỗi này có thể xuất phát từ Freebase giả mạo được thêm vào trong tháng 12 năm 2012 (cách đây gần 1 năm) mà không bị phát hiện cho đến khi “cập nhật “ đưa vào phạm vi công cộng . Điều này cho thấy một số loại kiểm soát đã được nới lỏng để cho phép các thông tin này hiển thị và Freebase có thể được sử dụng như một nguồn duy nhất của dữ liệu.

Dựa vào bảng Đồ thị kiến thức dường như cho thấy một kỷ nguyên mới của Biểu đồ kiến thức mà Tiến sĩ Pete báo cáo một vài tuần trước . Chúng ta có thể xem những thứ “mới” đang được phát hiện ra sau đó sử dụng dữ liệu, khai thác văn bản miễn phí và các công cụ xử lý ngôn ngữ tự nhiên , Google có thể tổng hợp, bình thường hóa và cấu trúc thông tin từ Freebase và chỉ mục tìm kiếm với các lược đồ thích hợp và đồ thị quan hệ để tạo ra các thực thể.

Thông qua bài viết này chúng ta hãy sử dụng nó như một cơ hội để tạo ra cuộc thảo luận xung quanh những thay đổi Đồ thị kiến thức giúp chúng ta bắt đầu nghĩ về giả thuyết của chúng ta và bắt đầu thử nghiệm chúng.

Ghi rõ nguồn www.waytomarketing.com khi đăng tải lại bài viết này.
Bài viết của tác giả Andrew Isidoro (Moz).
 

Bạn có quan tâm?

Donate

Thành viên trực tuyến