반응형

2024년 웹 개발 트렌드

https://thecodework.medium.com/web-development-trends-of-2024-0934aada1711

 

반응형
반응형

상위 10가지 음성 처리 API의 비교

 

언어 처리는 머신러닝에서 매우 인기 있는 영역입니다. 인간의 발화를 텍스트로 변환하거나 텍스트를 말로 변환하는 일에 상당한 수요가 있지요. 매장이나 공항, 호텔과 같은 다양한 장소에서 셀프 서비스가 발전함에 따라 이 기술은 특히 중요해졌습니다. 기계가 인간의 노동력을 대체하기 위해서는 우리의 언어를 활용해 우리 인간과 소통할 수 있는 능력이 필수적이니까요. 이것이 바로 인공지능과 머신러닝이 언어처리에 집중하는 이유입니다.

 

오늘날 많은 수의 대기업들이 각기 다른 머신러닝 임무를 수행하는 API를 제공하고 으며 언어 처리 영역 또한 예외가 아닙니다. 독자 여러분께서 API를 사용하기 위해 자연어 처리의 전문가가 될 필요는 전혀 없습니다. 일반적으로 API와 함께 현리한 인터페이스가 제공되기 때문이죠. 그렇기 때문에 우리는 API 서버에 요청된 콘텐츠와 함께 HTTP 를 보내주기만 하면 됩니다. 그러면 임무가 성공적으로 완료된 뒤 곧바로 응답을 받을 수 있습니다. 이러한 접근 방식은 여러분의 문제 상황이 특별하지 않은 경우, 다시말해 표준적이고 일반적인 문제 상황을 가지고 있을 경우에 특히 유용합니다. 뿐만아니라, 시간이나 돈과같은 가치있는 자원들을 절약할 수 있는 방식이기도 합니다.

 

그러나 API를 사용하지 못해 직접 스크래치에서 음성 인식 시스템을 개발해야만 하는 상황도 상당히 많이 존재합니다. 이는 꽤 복잡하기도 하며 자원과 노력이 많이 요구되는 일이긴 하지만 결과적으로는 여러분의 필요에 꼭 맞는 이상적인 시스템을 생성할 수 있습니다. 직접 알고리즘을 구축하면 결과의 질이 향상될 가능성도 있죠.

 

하지만 일단 API에 대해 알아두는 것은 유용합니다. 각각의 API가 무엇을 할 수 있고 어떤 장단점이 있는지 등을 알아둠으로써 어떤 상황에 API를 써야하며 어떤API를 써야할지, 혹은 어떤 상황에 시스템을 직접 개발해야만 하는지를 판단할 수 있게 될 것이기 때문입니다. 이번 기사에서는 유명한 음성 처리 API들을 비교해보려고 합니다. 음성 처리에는 크게 두가지 과제가 있는데, 첫째는 말을 텍스트로 바꾸는 것이고, 다른 하나는 텍스트를 사람의 말로 바꾸는 것입니다.

 

다음은 음성 처리를 위한 몇 가지 인기 있는 API 목록입니다.

  • Google 클라우드 음성 API
  • IBM Watson Speech to Text
  • IBM Watson Text to Speech
  • Microsoft Azure Bing 음성 API
  • Amazon Transcribe
  • Amazon Polly

또한 잘 알려지지 않았지만 비슷한 기능을 수행하는 API 제품이 있습니다.

  • VoxSigma API
  • Twilio 음성인식
  • Speechmatics ASR
  • Nexmo Voice API

 

 

 

medium.com/activewizards-machine-learning-company/comparison-of-top-10-speech-processing-apis-2293de1d337f

 

Comparison of Top 10 Speech Processing APIs

Speech processing is a very popular area of machine learning. There is a significant demand in transforming human speech into text and…

medium.com

 

medium.com/@aimap.marker/%EC%83%81%EC%9C%84-10%EA%B0%80%EC%A7%80-%EC%9D%8C%EC%84%B1-%EC%B2%98%EB%A6%AC-api%EC%9D%98-%EB%B9%84%EA%B5%90-7a7ee778d4a3

 

상위 10가지 음성 처리 API의 비교

언어 처리는 머신러닝에서 매우 인기 있는 영역입니다. 인간의 발화를 텍스트로 변환하거나 텍스트를 말로 변환하는 일에 상당한 수요가 있지요. 매장이나 공항, 호텔과 같은 다양한 장소에서

medium.com

 

반응형

'프로그래밍 > App' 카테고리의 다른 글

카톡 오픈채팅 ‘방장봇’ 생긴다  (0) 2020.11.13
googleapis/python-speech  (0) 2020.11.09
안드로이드폰 빠르게 사용하기.속도업!  (0) 2020.11.01
flutter 설치하기  (0) 2020.10.28
Flutter - beacon package  (0) 2020.10.07
반응형

음성인식 인공지능 스피커 전쟁이구만. 


모바일 퍼스트는 2007년 아이폰 나오면서 시작되었는데, 

이젠 사물인터넷으로 보이스 퍼스트 시대가 되어버림. 


아직도 모바일 퍼스트로 가지 않은 시스템은 지금이라도 변경되어야 함을 자각해야 할 것인데. 


이달 초 '유럽 최대 가전전시회 IFA 2017'이 열린 베를린 전시장에서는 전시회 기간 내내 "오케이 구글", "알렉사"를 부르는 목소리가 울려 퍼졌다. 


정작 이 음성 소프트웨어를 만든 구글과 아마존의 부스는 없거나 아주 작았다. 아마존과 구글의 음성비서들은 LG전자, 필립스(Phillips), 보쉬(Boche), 밀레(Miele), 지멘스(Siemens) 등 세계 유수기업들이 세운 대형 부스 곳곳의 냉장고, 청소기, 전등, 자동차 부품 속에서 목소리에 반응했다. 


2017년 전 세계 IT업계 최대의 화두인 '보이스 인공지능'의 모습이다. 네이버, 카카오, SK텔레콤, KT 등 한국 IT 기업들이 아직 완벽하다고 말하기는 힘들지만 각기 인공지능(AI) 스피커를 서둘러 내놓고 있는 이유다. 


인공지능 스피커는 인간의 목소리라는 명령에 반응하고, 목소리에 든 데이터를 수집한다. 10년 전인 2007년 탄생한 애플의 아이폰은 사람들이 정보를 소비하는 공간과 습관을 일거에 뒤바꿔 놓으며, '모바일 퍼스트(mobile first)' 시대를 열었다. 이로 인해 전 세계 산업 지형과 기업 순위가 바뀌는 결과를 초래했다. 


"2007년 스마트폰의 등장은 단기간에 인터넷의 이용 방식을 변화시켰고, 미디어, 금융, 상거래, 자동차 등 다양한 산업 영역을 휩쓸고 있는 거센 폭풍의 진원지로 기능했다. 그 과정에서 애플과 구글은 스마트폰 생태계의 성장 방향을 결정할 수 있는 강력한 플랫폼 지배력을 확보했다. 이제는 아마존 알렉사를 필두로 구글 어시스턴트, 애플 시리, 마이크로소프트 코타나, 삼성 빅스비뿐만 아니라 네이버 라인의 클로바, 카카오 아이, 그리고 SK텔레콤 누구, KT의 기가지니 등이 보이스 플랫폼의 성공적 구축을 위해 뛰고 있다. 누가 승리할 것인가?"'보이스 인공지능 서비스 전쟁' 중에서)


"아마존은 음성비서의 뛰어난 점이 '편재성(ubiquity)'이라는 사실을 간파했다. 목소리로 명령을 전달한다는 것은 굳이 좁은 스크린을 찾아 가거나 손에 쥐고 있을 필요가 없다는 것을 의미한다. 이를 위해서는 공간 전체에 컴퓨터가 존재해야만 했다. 이를 가능하도록 만든 것이 360도로 배열된 일곱 개의 마이크를 탑재한 원통형 스피커이다. 손을 대지 않고 목소리로 기계를 깨우는 인터페이스 기술은 이전에 없던 새로운 컴퓨팅을 가능하게 했다."(보이스 전쟁에 뛰어든 키 플레이어들 '시리, 왕좌를 내어주다' 중에서) 


아이폰이 열어젖힌 모바일 퍼스트 시대에는 터치 인터페이스를 통해 데이터를 수집하고 명령을 수행했다. 그로부터 불과 10년이 흐른 지금, 폰을 손으로 집어들 필요조차 없이 말로써 요청하면 쇼핑은 물론 메신저 보내기, 가전제품 제어까지 가능한 시대가 되었다. 이러한 세상을 '보이스 퍼스트 월드(Voice First World)'로 명명됐다. 



http://www.newsis.com/view/?id=NISX20170917_0000097650




...

반응형
반응형

음성인식 API는 어떻게 사용하는가?  SKTelecom NUGU


 

요약 

설명 

createSpeechRecognizer() 

초기화 

인식시 생성 

destroy() 

객체 소명 

인식기 소멸 

startListening()

인식 시작 


- 서버 접속 수행 후 마이크에서 음성입력을 받아 인식 수행

- 음성입력이 끝나면 자동으로 인식이 종료되고 createSpeechRecognizer() 실행 시  설정한 listener를 통해 인식 결과 또는 오료 결과를 반환 한다.


stopListening()

인식 종료 


- 음성인식을 종료

- 호출시점까지 입력된 음성으로 인식을 수행하고, createSpeechRecognizer() 실행시 설정한 listener로 인식 결과 또는 오류 결과를 반환 


onResults()

음성인식 완료 시 호출 


- 음성인식이 완료되면 호출

- 음성인식 결과는 SpeechRecognizer의 getSpeechRecognitionResults() 함수를 사용하여 읽어 올 수 있다. 



반응형

+ Recent posts