Phát triển giải pháp nhận dạng giọng nói ngoại tuyến

2020-08-16 13:28:37

Giới thiệu về phát triển giải pháp nhận dạng giọng nói ngoại tuyến


 


Công nghệ nhận dạng giọng nói tự động ASR (Automatic Speech Recognition) dựa trên công nghệ nhận dạng danh sách từ khóa. Trong mỗi quy trình nhận dạng, nội dung giọng nói của người dùng được chuyển đổi thành các đặc điểm giọng nói thông qua phổ tần số và các mục trong danh sách từ khóa được đối sánh từng cái một và kết quả phù hợp nhất được sử dụng làm kết quả nhận dạng. Ví dụ, trong ứng dụng điện thoại di động, nội dung của danh sách từ khóa này là tên người trong danh bạ / menu lệnh của điện thoại / tên bài hát trong thẻ T, v.v ... Không cần biết nội dung của danh sách này là gì, chỉ cần người dùng đặt đăng ký phù hợp. Nội dung của mục tương ứng cần nhận dạng có thể được chuyển tới công cụ nhận dạng dưới dạng ký tự.


Công cụ nhận dạng không quan tâm đến nội dung của các từ khóa trong danh sách từ khóa, đó có thể là bất kỳ chuỗi ký tự Trung Quốc nào như lệnh, tên người, tên bài hát, hướng dẫn hoạt động, v.v.


Số lượng từ tối đa được hỗ trợ bởi mỗi từ khóa được giới hạn ở 30 từ từ góc độ thuật toán. Tuy nhiên, từ tình hình thực tế, khi người dùng nói nhiều hơn 8 từ trong một hơi, gần như chắc chắn họ sẽ mắc lỗi đánh máy / thiếu / nói nhiều từ / nấc / ngắt quãng,… Những trường hợp này sẽ ảnh hưởng nghiêm trọng đến việc nhận dạng và gây ra lỗi. Vì vậy, nói chung, nếu bạn muốn có được hiệu ứng nhận diện lý tưởng, thì số từ của mỗi từ khóa không quá dài để tránh ảnh hưởng đến hiệu ứng.


 


Ý nghĩa quan trọng nhất của công nghệ ASR là cung cấp giao diện người dùng dựa trên giọng nói, không có nút và chuột, làm cho hoạt động của người dùng đối với sản phẩm tự nhiên hơn, nhanh hơn và thuận tiện hơn so với điều khiển bằng tay và có thể được sử dụng cho các thiết bị gia dụng thông minh, thiết bị đeo thông minh và đồ chơi thông minh kích hoạt bằng giọng nói Và nhiều lĩnh vực khác.


Hiện tại, giá các giải pháp nhận dạng giọng nói trực tuyến tương đối cao, thời gian tiếp cận sản phẩm phức tạp và thời gian đáp ứng bị ảnh hưởng bởi nhà mạng. Giải pháp này cung cấp khả năng nhận dạng giọng nói ngoại tuyến đối với giọng nói không cụ thể của con người dựa trên một số lượng lớn cơ sở dữ liệu giọng nói. Giải pháp này có ưu điểm về chi phí, truy cập đơn giản, chu kỳ ngắn, tốc độ phản hồi nhận dạng nhanh (trong vòng 0,5 giây) và không cần kết nối mạng. Giải pháp tổng thể hoàn thiện, ổn định và đáng tin cậy, cho phép các sản phẩm truyền thống nhanh chóng nâng cấp chức năng thoại thông minh.


 


Công nghệ nhận dạng giọng nói ngoại tuyến là một công nghệ dựa trên nhận dạng danh sách từ khóa. Bạn chỉ cần thiết lập danh sách các từ khóa được nhận dạng và các từ khóa mà người dùng nói có thể được nhận dạng thông qua hệ thống nhận dạng giọng nói mà không cần bất kỳ khóa đào tạo ghi âm nào cho người dùng.


Dễ dàng mà không cần kết nối internet


Nhận ra điều khiển bằng giọng nói


 


Ứng dụng thị trường:


Đèn thoại thông minh, đồ chơi thông minh, đồ gia dụng (quạt điện, máy hút mùi, điều hòa nhiệt độ), máy mát xa mắt, máy mát xa cổ, loa thông minh và nhiều sản phẩm khác.


 


Ưu điểm của chương trình:


Tỷ lệ nhận dạng hơn 95%, nhận dạng chính xác trong phạm vi 3M


Hỗ trợ 32 ngôn ngữ, hỗ trợ nhiều ngôn ngữ phụ


Không cần kết nối Internet, nhận dạng ngoại tuyến, phản hồi nhanh


Hỗ trợ phát sóng phản hồi bằng giọng nói, tăng tính tương tác giải trí


Hiệu suất chi phí cao, kiến trúc SOC, Codec tích hợp


Độ ổn định cao, chip cấp công nghiệp


Thiết kế hướng dẫn linh hoạt, không cần khách hàng ghi lại


Thời gian phát triển ngắn và hỗ trợ kỹ thuật tại chỗ


 


thông số kỹ thuật:


Phạm vi điện áp làm việc là tùy chọn 3,3 ~ 5,5V


Đầu vào chân MIC chuyên dụng Mức nâng cao là 26dB, tổng độ lợi tối đa là 65dB


Đầu ra PWM âm thanh khác biệt, điều khiển trực tiếp loa 1W / 8Ω


2 đầu ra tín hiệu PWM, có thể được sử dụng để làm mờ LED


Cung cấp giao diện I2C / UART và giao thức truyền thông tùy chỉnh, có thể được sử dụng cho các mô-đun bên ngoài và giao tiếp với MCU bên ngoài


 


 


phương thức hợp tác:


Cung cấp một kế hoạch thiết kế hoàn chỉnh cho nhận dạng giọng nói, khách hàng có thể thiết kế các chức năng theo nhu cầu riêng của họ, công ty chúng tôi chịu trách nhiệm phát triển phần điều khiển bằng giọng nói, và kết nối với điều khiển chính của khách hàng


Ủy quyền chip: Khách hàng tự phát triển ứng dụng, sản xuất PCB và mua các thành phần tương ứng để sản xuất. Công ty chúng tôi cung cấp chip, các tuyến tham chiếu liên quan và lệnh nhận dạng giọng nói.



trường hợp thành công:

1. Đèn thoại thông minh

2. Đồ gia dụng thông minh

3. Máy mát xa sức khỏe

4. Điều khiển trung tâm thông minh


 


Mô-đun giảm tiếng ồn giọng nói:

Loại bỏ hiệu quả tiếng ồn môi trường và cải thiện hiệu quả nhận dạng trong môi trường ồn ào.

Thích hợp cho các sản phẩm có chuyển động cơ học, chẳng hạn như quạt, máy sưởi, máy hút mùi, rô bốt quét, v.v.



Tất cả các kỹ sư phát triển được hoan nghênh đến để tham khảo và hiểu rõ.