CAN THO CITY DEPARTMENT OF SCIENCE AND TECHNOLOGY
AI “biết tuốt” nhờ khả năng duyệt web như con người
Công ty khởi nghiệp Diffbot ở ĐH Stanford đang xây dựng một AI có thể đọc mọi trang web trên internet, bằng nhiều ngôn ngữ, và trích xuất càng nhiều dữ kiện từ các trang đó càng tốt.

Hình minh họa mạng lưới dữ kiện

Hồi tháng 7, GPT-3, mô hình ngôn ngữ mới nhất của OpenAI, đã làm cả thế giới ấn tượng với khả năng đưa ra thông tin "như thật", theo cách rất giống với con người.

Chẳng hạn, trong một bảng tính Excel, cột dọc đầu tiên là tên bốn bang của Hoa Kỳ (Illinois, California, Ohio và Alaska), cột thứ hai là dân số và cột cuối cùng là năm thành lập bang. Các ô dân số và năm thành lập của ba bang đầu tiên đã được điền sẵn đáp án, và từ đó GPT-3 phải tự điền vào các ô còn trống về dân số và năm thành lập của bang cuối cùng, Alaska. Mô hình này đã điền 603.000 vào ô dân số và 1906 vào năm thành lập.

Câu trả lời có vẻ rất đúng định dạng, nhưng sự thực là GPT-3 đã trả lời nhảm nhí. Alaska có dân số hơn 730.000 và trở thành một bang vào năm 1959.

Các mô hình ngôn ngữ như GPT-3 có khả năng bắt chước đáng kinh ngạc, nhưng chúng hiểu rất ít về ý nghĩa của câu nói. “Chúng rất giỏi bịa chuyện," Mike Tung, Giám đốc điều hành Diffbot, cho biết. "Nhưng không được đào tạo để đưa ra thông tin thực tế."

Đó là lý do tại sao Diffbot có một cách tiếp cận khác. Họ đang xây dựng một AI có thể đọc mọi trang trên toàn bộ web công cộng, bằng nhiều ngôn ngữ và trích xuất càng nhiều dữ kiện từ các trang đó càng tốt.

Giống như GPT-3, hệ thống của Diffbot học bằng cách thu thập lượng lớn văn bản trực tuyến. Nhưng thay vì sử dụng dữ liệu đó để đào tạo mô hình ngôn ngữ, Diffbot biến những gì nó đọc thành một chuỗi dữ liệu ba phần liên quan với nhau: chủ từ, động từ, vị từ.

 

Ví dụ, nhìn vào tiểu sử của một nhà báo ở MIT, Diffbot biết rằng đây là một nhà báo; anh ta làm việc tại MIT Technology Review; MIT Technology Review là một công ty truyền thông; và cứ thế. Mỗi dữ kiện trong số này được kết hợp với hàng tỷ dữ kiện khác trong một mạng lưới dữ kiện rộng lớn mà Diffbot đã thu thập được. Đây được gọi là biểu đồ tri thức (knowledge graph).

Biểu đồ tri thức không phải là mới. Chúng đã xuất hiện từ nhiều thập kỷ và là một khái niệm cơ bản trong nghiên cứu AI ban đầu. Nhưng việc xây dựng và duy trì các biểu đồ tri thức thường được thực hiện thủ công.

Một vài năm trước, Google cũng bắt đầu sử dụng biểu đồ tri thức. Tìm kiếm “Katy Perry” trên Google, bạn sẽ nhận được một hộp thông tin cho biết Katy Perry là một ca sĩ kiêm nhạc sĩ người Mỹ; nhạc của cô có trên YouTube, Spotify và Deezer. Một vài thông tin vắn tắt mà Google cũng sẽ trích dẫn là cô 35 tuổi, đã kết hôn với Orlando Bloom, và trị giá 125 triệu USD, v.v... Thay vì cung cấp cho bạn danh sách các trang về Katy Perry, Google cung cấp cho bạn một tập hợp các dữ kiện về cô được rút ra từ biểu đồ tri thức của nó.

Nhưng Google chỉ đưa ra thông tin dạng này cho các cụm từ tìm kiếm phổ biến nhất. Diffbot muốn đưa ra thông tin cho mọi thứ. Bằng cách tự động hóa hoàn toàn quá trình xây dựng, Diffbot muốn xây dựng một biểu đồ tri thức lớn nhất từ trước đến nay.

Cùng với Google và Microsoft, đây là một trong ba công ty Hoa Kỳ lục lọi mọi trang web công cộng. “Tự động hóa là cách duy nhất để xây dựng biểu đồ tri thức quy mô lớn," Heiko Paulheim tại Đại học Mannheim ở Đức, nói.

Đọc web như con người

Để thu thập dữ kiện, AI của Diffbot cũng đọc web như con người nhưng nhanh hơn nhiều. Sử dụng một phiên bản đặc biệt của trình duyệt Chrome, AI này xem các pixel thô của trang web và sử dụng thuật toán nhận dạng hình ảnh để phân loại trang thành một trong 20 loại khác nhau - bao gồm video, hình ảnh, bài viết, sự kiện và chuỗi thảo luận, v.v... Sau đó, nó xác định các yếu tố chính trên trang, chẳng hạn như dòng tiêu đề, tác giả, mô tả sản phẩm hoặc giá cả và trích xuất dữ kiện.

 

Mỗi dữ kiện khi đã đủ ba phần (chủ từ, động từ, vị từ) sẽ được thêm vào biểu đồ tri thức. Diffbot trích xuất dữ kiện từ các trang được viết bằng bất kỳ ngôn ngữ nào, có nghĩa là nó có thể trả lời các truy vấn về Katy Perry, chẳng hạn, bằng cách sử dụng dữ kiện lấy từ các bài báo bằng tiếng Trung hoặc tiếng Ả Rập, ngay cả khi chúng không chứa chính xác cụm từ “Katy Perry”.

Khả năng duyệt web như một con người cho phép AI nhìn thấy những dữ kiện giống như chúng ta thấy. Cũng có nghĩa là nó phải học cách điều hướng trên web giống như chúng ta. AI phải cuộn xuống, chuyển đổi giữa các tab và nhấp vào cửa sổ. “Nó phải lướt web như một trò chơi điện tử để trải nghiệm các trang," Tung nói.

Diffbot thu thập dữ liệu web không ngừng và xây dựng lại biểu đồ tri thức của nó sau mỗi bốn đến năm ngày. Theo Tung, AI sẽ bổ sung từ 100 triệu đến 150 triệu thực thể vào biểu đồ mỗi tháng khi có những nhân vật mới, sản phẩm mới xuất hiện. Nó sử dụng nhiều thuật toán học máy để kết hợp các dữ kiện mới với các dữ kiện cũ, tạo ra các mối liên quan mới hoặc ghi đè lên các dữ kiện lỗi thời. Để làm được điều này, Diffbot cũng phải liên tục nâng cấp trung tâm dữ liệu của mình khi biểu đồ tri thức ngày càng lớn.

Các nhà nghiên cứu có thể truy cập miễn phí biểu đồ tri thức của Diffbot. Nhưng Diffbot cũng có khoảng 400 khách hàng trả tiền. Công cụ tìm kiếm DuckDuckGo sử dụng Diffbot để tạo các hộp giống như Google. Snapchat sử dụng nó để trích xuất các tin nổi bật từ các trang tin tức. Ứng dụng tổ chức đám cưới phổ biến Zola sử dụng nó để giúp mọi người lập danh sách đám cưới, thu thập hình ảnh và giá cả. NASDAQ sử dụng nó để nghiên cứu tài chính.

Adidas và Nike thậm chí còn sử dụng Diffbot để tìm kiếm giày giả trên internet. Công cụ tìm kiếm thông thường sẽ trả về một danh sách dài các trang web nói về giày của họ, nhưng Diffbot cho phép tìm kiếm các trang web thực sự bán giày của các hãng này.

Hiện tại, các công ty nói trên đang tương tác với Diffbot bằng ngôn ngữ lập trình. Nhưng Tung dự định thêm giao diện ngôn ngữ tự nhiên cho Diffbot. Cuối cùng, anh muốn xây dựng cái mà anh gọi là “hệ thống trả lời câu hỏi dạng thực tế phổ quát”: một AI có thể trả lời hầu hết mọi thứ bạn hỏi, với các nguồn thông tin chính xác đằng sau câu trả lời của nó.

Hai nhà sáng lập của Diffbot đồng ý rằng không thể xây dựng được AI như vậy nếu chỉ dựa trên các mô hình ngôn ngữ, như GPT-3, mà cần kết hợp thêm với một mô hình có thông tin/ dữ kiện thực tế, như Diffbot. Mô hình ngôn ngữ tự nhiên như GPT-3 sẽ là giao diện giao tiếp với người dùng, và đằng sau là một AI "biết tuốt".

Tuy nhiên, một AI cung cấp thông tin chính xác không nhất thiết phải là một AI "thông minh". Tung nói: “Chúng tôi không cố định nghĩa trí thông minh là gì hay bất cứ thứ gì tương tự. Chúng tôi chỉ đang cố gắng tạo ra thứ gì đó hữu ích.”

Hoàng Nam tổng hợp

www.khoahocphattrien.vn (ctngoc)
Most viewed news

Applying information technology in agricultural product management: Quality control, information transparency

Recently, Hanoi Agriculture sector has supported agricultural, forestry and fishery production, preliminary processing and processing facilities to apply information technology in management and development of safe agricultural product supply chains into the market.

Promote the development of 48,000 digital technology businesses operating locally

Prime Minister Pham Minh Chinh - Chairman of the National Committee on Digital Transformation issued a resolution approving the action plan for this Committee 2024.

Vietnam and the United States strengthened cooperation in the field of digital technology industry

On March 21, in Hanoi, the Minister of Information and Communications (Ministry of Information and Communications) welcomed a business delegation of the United States - ASEAN Business Council (USABC) led by Mr. Ted Osius, President and General Director of USABC, former US Ambassador to Vietnam as Head of the delegation.

Regulations on shared database promote the digital government

The Ministry of Information and Communications is drafting a Decree regulating shared databases. The draft is being posted on the Ministry's e-portal to collect public comments from people and businesses.

Research on manufacturing environmentally friendly lightweight concrete panels, using fly ash and incinerator slag from Can Tho City Solid Waste Treatment Plant

In order to evaluate the budget for implementing the science and technology project "Research on manufacturing environmentally friendly lightweight concrete panels, using fly ash and incinerator slag from Can Tho City Solid Waste Treatment Plant”, Can Tho City Department of Science and Technology had a meeting in the afternoon of May 4, 2024. The Council was presided by Dr. Ngo Anh Tin - Director of Can Tho City Department of Science and Technology. Ho Chi Minh City University of Technical Education is an agency in charge of implementation.

Application of powdered and liquid Lactic bacteria preparations in aquaculture and poultry farming

In order to consider directly assigning organizations and individuals to preside over the science and technology project "Application of powdered and liquid Lactic bacteria products in aquaculture and poultry farming", Can Tho City Department of Science and Technology had a council meeting in the afternoon of April 25, 2024. The Council was presided by Mr. Truong Hoang Phuong - Deputy Director of Can Tho City Department of Science and Technology. The study will carried out by Dr. Nguyen Huu Thanh. Can Tho Science and Technology Advanced Application Center is an agency in charge of implementation.

Can Tho City Department of Science and Technology welcomed the delegation of Danang City Department of Science and Technology

In order to exchange experiences in building and implementing local mechanisms and policies on science and technology, in the morning of April 25, 2024, the working group of Da Nang City Department of Science and Technology includes 07 people led by comrade Le Duc Vien - Director of Da Nang City Department of Science and Technology as Head of the delegation, visited and exchanged and learned experiences at the Department of Science and Technology of Can Tho City. Welcoming and working with the delegation, there were Mr. Ngo Anh Tin - Director of Can Tho City Department of Science and Technology, along with representatives of leaders of specialized departments and affiliated units of the Department.

Building a continuous movement assessment system to detect early progression of cerebral infarction due to large vessel occlusion and transient ischemic attack

In the morning of April 24, 2024, Can Tho City Department of Science and Technology organized a mid-term evaluation council for the science and technology project "Building a continuous movement assessment system to early detect the progression of cerebral infarction due to large vessel occlusion and transient ischemic attack". The Council was presided by Dr. Ngo Anh Tin - Director of Can Tho City Department of Science and Technology. The study will be carried out by Dr. Ha Tan Duc and Dr. Nguyen Van Binh. Can Tho Central General Hospital is an implementing agency.

Can Tho ranked 2nd in the country of innovation output

In 2023, the Ministry of Science and Technology announced the Local Level Innovation Index. Accordingly, Can Tho ranked in the top 5 localities achieving the highest PII index in the country. As for innovation output, Can Tho ranked second in the country, just behind Hanoi.

Related news
CAN THO CITY DEPARTMENT OF SCIENCE AND TECHNOLOGY

Copyright @ 2021 belongs to the Can Tho City Department of Science and Technology
Address: No. 02, Ly Thuong Kiet, Tan An Ward, Ninh Kieu District, Can Tho City
Phone: 0292.3820674, Fax: 0292.3821471; Email: sokhcn@cantho.gov.vn
Head of the Editorial Board: Ms. Tran Hoai Phuong - Deputy Director of the
Can Tho City Department of Science and Technology

Copyright © 2021 All rights reserved | This template is made by CASTI'1987