Cisco Cisco MXE 3500 (Media Experience Engine) Informationshandbuch

Seite von 11
 
 
Q&A 
© 2011 Cisco and/or its affiliates. All rights reserved. This document is Cisco Public Information. 
Page 9 of 11 
Speech-to-Text  
Q.
 
What is speech-to-text? 
A.
 
Speech-to-text is based on voice-recognition technology that converts audio into a textual representation. 
Q.
 
How can I purchase speech-to-text services for the Cisco MXE 3500? 
A.
 
The speech-to-text feature is delivered as an add-on license to the base Cisco MXE 3500 services license. If 
you want to use this feature, you must purchase the Speech-to-Text license for the Cisco MXE 3500. 
Q.
 
How accurate is speech-to-text? 
A.
 
Speech-to-text accuracy varies based on many different variables, including speakers' cadence, accents, sound 
quality, ambient conditions, and so on. Generally, the average accuracy for speech-to-text service on the Cisco 
MXE is in the 30 to 70 percent range. 
Q.
 
How can accuracy be improved? 
A.
 
You can improve the accuracy for the speech-to-text service on the Cisco MXE 3500 by improving the sound 
quality using a high-quality microphone and recording in a quiet environment. 
Q.
 
How is speech-to-text rendered on the video? 
A.
 
You can make the speech-to-text output appear as a caption on the video. 
Q.
 
Can I export only the text transcripts of the video? 
A.
 
Yes. The speech-to-text module creates a text output that you can easily export. 
Q.
 
In order to obtain speech-to-text output, do I need to reprocess the video? 
A.
 
No. The benefit of the speech-to-text service is that the processing is part of the overall workflow, meaning that 
the speech-to-text service is applied as the video is processed for transcoding and transrating. 
Q.
 
Can I take a recorded Cisco TelePresence output and apply speech-to-text to the video? 
A.
 
Yes. The Cisco MXE 3500 is transparent to the workflow for the Cisco TelePresence Recording Server. The 
Cisco MXE can then automatically ingest (through a watch folder) the file and perform the transcoding, 
transrating, video editing, overlays, and the speech-to-text rendering, all in a single processing job. 
Q.
 
Is speech-to-text supported in the live mode? 
A.
 
No. Currently speech-to-text service is delivered only for file-to-file transcoding services. 
Q.
 
What primary use cases are supported for speech-to-text services? 
A.
 
The speech-to-text service has numerous uses, including: 
 
Captioned video for the hearing impaired 
 
Ability to display the text on video when it is being played back in areas that cannot have the audio enabled 
(for example, a café, store, or public area) 
 
Desktop video publication to view transcripts of the video alongside the video 
Integration with the Cisco Flip Camera 
Q.
 
What is the Cisco Flip
 camera? 
A.
 
The Flip camera is a camera in a portable form factor that empowers you to capture HD video footage. 
Q.
 
Which versions of the Cisco Flip camera are compatible with the Cisco MXE 3500? 
A.
 
All HD versions of the Flip camera are currently compatible with the Cisco MXE 3500. 
Q.
 
How does the Cisco Flip camera integrate with the Cisco MXE? 
A.
 
The Cisco MXE can ingest content captured by the Flip camera and perform transcoding, transrating, video 
editing, graphics overlays, and speech-to-text conversions.