近日,我校计算机与信息学院汪萌教授的两项科研成果:Movie2Comics和DynamicCaption,被国外媒体多次报道。
传统影视字幕的革命式改变
来自中国的合肥工业大学汪萌教授及其合作者提出了影视字幕显示新方法赢得了2010年美国计算机学会(ACM)举办的多媒体国际会议(ACM MM)的最佳论文。
汪萌教授在接受采访时表示,研发此项新技术的动机出自于解决听力障碍者在观看影视节目时的不便,即虽有字幕的辅助,他们在观看时常常难以辨别出谁在说话,进而难以跟上字幕的变化,因而我们研发能够将字幕自动地放置于说话者脸部附近且能同步凸显它们的技术。
传统字幕都可以认为是静态的,所有文字都至于屏幕下方,且与说话者音量高低无关。而汪萌教授领导的研究人员研发的新技术能做到动态地显示字幕,即根据不同的说话者来自动放置对话框,并改变其显示方式来体现说话人音量大小。例如在人物大声说话时,其嘴边附近显示的字幕被加粗以示高音量,同时在对话框的边上还附加一个小小的音量提示标识。
这些创意和特色均能在完全没有人工介入的前提下全自动完成。为完成上述功能,研发人员开发了根据语音信息和人脸唇部运动检测来自动确定说话人身份的算法;利用画面显著度分析技术,可以进一步确定对话框位置的设定且尽量不遮挡住画面中的重要部分。作为系统提供的辅助功能,影视制作技术专业人员还可以人工调整生成的动态字幕,例如移动对话框。当影视画面中说话人并未出现或有鹦鹉之类无法识别的物体说话时,字幕则仍静态地处于画面下方。系统通过一个20毫秒的窗宽来估计说话人语音音量。
完成动态对白显示任务往往大约需要与影视作品长度同样的时间,但却与具体影视画面中的复杂度有一定关联。研究者预计可通过优化加速其中一些处理大大减少该方法的耗时。
有60名11-22岁的听力障碍者接受了收拾这测试。研究人员发现其中53人选择接受这种新技术。其余7名受试者由于他们非常熟悉静态字幕而没有选择接受这项新技术。受试者为动态字幕带来的愉悦值打分要高于静态字幕,而在自然性打分方面,二者则基本持平。这是因为在一些结果中字幕框的位置会有突然变化,这也是研究人员希望进一步解决改进的方面。
汪萌教授表示,在他们发表的论文中提及了一些失败的实例,如对白被错置于其他人物脸部的边上。这类错误是该项技术商业化的一个主要障碍,而通过引入人机交互可能是促使其完成商业化推广的一个解决手段。例如专业人员可以通过迅速检查动态字幕结果来找出错置的字幕并调整其位置。这比之完全手动实现动态字幕还是要节省了绝大部分的精力和时间开销,我们已经着手开展这项工作。
由于该成果是首个旨在辅助听力障碍人群更好观看影视作品的思路和技术,研究人员表示在此还有很多的后续研究和开发工作。除此之外,抛弃对白文本文件而转向利用语音识别技术,完成更广泛的受试者测试也是进一步的研究方面。
原载于:PhysOrg.com,专门从事物理、空间和地球科学、生物学、化学、电子学、纳米技术等硬科学的科技新闻网站,每个月七十余万美国人访问
http://phys.org/news/2012-03-revolutionize-captioning.html
传统影视字幕的革命式改变
由来自中国的合肥工业大学汪萌教授领导的研究人员开发出了动态显示影视字幕的技术,可以实现将对话自动显示在说话人的嘴部附近。相比于传统静态字幕,此项技术可以提高听力障碍人群观看影视节目的质量。由于对白框可以自动地出现在说话人附近,且根据说话人音量加以不同显示,该技术被称之为“动态字幕”。为完成上述功能,研发人员开发了根据语音信息和人脸唇部运动检测来自动确定说话人身份的算法;利用画面显著度分析技术,可以进一步确定对话框位置的设定且尽量不遮挡住画面中的重要部分。在受试者测试中,共有60名听力障碍者被邀请观看不同基于新技术下的影视作品。其中53名受试者认为该项技术更有益于他们理解影视中的情节。汪萌教授表示,这一思路和技术的提出正是由解决听力障碍者看视频困难的问题激发,他们常常难以判断出静态字幕中的文字是出自于哪个角色之口,且难以跟上字幕变化,所以我们开发出了这种能自动将对白放在说话人嘴边且同步凸显字幕音量的技术。
原载于ACM TechNews,美国计算机学会技术新闻,定期搜集并发布整个计算机以及信息科学领域的最新技术进展,订阅者接近10万人,包括大量的教授、研究人员、工程师等。
http://technews.acm.org/archives.cfm?fo=2012-03-mar/mar-23-2012.html
泰坦尼克号连环画:智能技术让所有电影变连环画
当今有一款智能软件名为Movie2Comics,通过复杂的图像处理与模式识别技术,它能将电影完全自动转换成连环画式的片段。这是目前首个完全自动(用户也可以通过参数对结果微调)完成电影转化为卡通连环画的工作。具体来说,软件首先通过人脸识别技术分析确定电影中的角色,并提取人物行为的关键帧,进而按照连环画风格来对这些关键帧排版,最后按照连环画中的人物对白形式,自动为各角色对白加上不同风格的对话框。
这项技术是由来自中国的合肥工业大学教授汪萌领导开发。接受采访时,汪萌教授表示,此项软件对专业人员和动漫爱好者都有用处:专业动漫人员可以借助此软件将电影直接转化为连环画,并通过软件提供的辅助参数对结果细调,以获得更好的效果;对动漫爱好者来说,他们可以尽情地将自己喜爱的电影转换成连环画风格的形式。
研发人员告诉记者,目前该软件在测试过程中偶尔会将对白放置在错误的角色区域,但其正确率仍能达到85%。在受试者评估中,研究人员发现,相比于原始电影视频,受试者在整个漫画情节理解方面要稍难一些;但普遍反映对于软件带来的丰富漫画效果而感到新奇和愉悦。
汪萌教授在接受采访时表示,该软件在进一步开发时主要有如下两方面计划:首先是提高诸如字幕与人物对应等方面的准确率,进而能完全得到不用进一步交互调整的结果;其次是利用语音识别技术将软件功能进一步提高,达到可以抛开电影字幕的辅助也能生成效果良好的连环画式效果。
原载于Daily Mail 英国每日邮报
http://www.dailymail.co.uk/sciencetech/article-2115488/Movie2Comics-convert-hit-film-cartoon-itself.html)
自动将电影转换为连环画的智能软件
来自中国的合肥工业大学汪萌教授及其合作者近期在IEEE Transaction on Multimedia期刊上发表了关于“Movie2Comics”智能技术的研究论文。其中提到,以往相关软件技术仅仅是用来辅助卡通设计人员将电影转换成卡通连环画形式,但他们所提出的方法技术可以首次实现完全自动地实现电影连环画生成。
汪萌教授在接受PhysOrg采访时说,专业动漫人员可以借助此软件将电影直接转化为连环画,并通过软件提供的辅助参数对结果细调,以获得更好的效果;对动漫爱好者来说,他们可以尽情地将自己喜爱的电影转换成连环画风格的形式。
这项技术具体包括如下几个步骤:在多人物的画面中通过“字幕-人脸对应算法”来确定人物角色,自动生成不同尺寸的连环画板式,自动放置对白框,以及将电影画面渲染成漫画风格。
研发人员在《泰坦尼克》、《大侦探福尔摩斯》和《风声》等电影中提取了15段2-7分钟不等的电影片段用以测试该新方法。该方法在绝大多数场景中均取得了良好效果,人物-对白自动放置的准确率达到85%,只是在一些多人物场景中偶尔将对白文字错置于其他人物脸部边上,这也是研发人员希望进一步提高的一个方面。
研发人员还进行了受试者体验测试来评估人对连环画式电影的情节理解和效果感受。相比于原始电影视频,受试者在整个连环画情节理解方面要稍难一些,这部分也是由于上述人物-对白错置带来的。对于效果感受,普遍反映对于软件带来的丰富连环画效果而感到新奇和愉悦。
尽管该技术能自动完成所有步骤,研发人员仍注意到如果能引入人工指导与交互将能给软件带来更好的效果。在此动机下,软件不但包含了每一步骤所默认的处理参数,还提供了人机交互功能来自主微调效果,这比完全由人工来完成电影连环画转换仍具有极大的效率优势。但研究人员仍希望能在完全自动的前提下进一步提高该方法的效果。
在接受采访的最后,汪萌教授表示该软件在进一步开发时主要有如下两方面计划:首先是提高诸如字幕与人物对应等方面的准确率,进而能完全得到不用进一步交互调整的结果;其次是利用语音识别技术将软件功能进一步提高(目前软件仍需要电影的字幕文本文件),达到可以抛开电影字幕的辅助也能生成效果良好的连环画式效果。
原载于PhysOrg http://phys.org/news/2012-03-software-automatically-movie-comic.html
自动将电影转换为连环画的智能软件
来自合肥工业大学汪萌教授领导的研究团队今日开发了名为“Movie2Comics”的技术,可以在不需人工介入的条件下自动将电影转换成连环画。汪萌教授表示,借助这一研究成果,动漫专业人员可以直接生成连环画,或者通过人机互动实现更好的连环画式效果;而动漫爱好者可以尽情地将自己喜爱的电影转换成连环画风格的形式。
汪萌教授表示,尽管现有的技术已经能够辅助动漫工作人员将电影转化成连环画,但该项新技术则能实现完全的自动化转换,其中包括在多人物的画面中通过“字幕-人脸对应算法”来确定人物角色,自动生成不同尺寸的连环画板式,自动放置对白框,以及将电影画面渲染成漫画风格等诸多步骤。研究人员使用该技术对15段电影片段进行了实验,达到了85%的准确性,他们还希望能进一步改进完善方法技术来提高其效果。
尽管该方法能全自动地完成所有步骤,研发人员表示在此基础上借助人的少量交互指导,还能获取更好的效果。
原载于ACM TechNews:http://technews.acm.org/archives.cfm?searchterm=Welcome+to+Speculation+Press&fo=2012-03-mar%2Fmar-19-2012.html
自动将电影转换为连环画的智能软件
当今动漫行业中,即使借助于数字化工具,生成漫画仍然是一项耗时耗力的工作。来自合肥工业大学的研究者今日开发能够不借助人工干预自动将电影片段转换为连环画的软件Movie2Comics。该软件设计了在多人物角色场景中自动识别谁在说什么台词的算法,并且能自动为漫画安排板式和确定人物对白位置,自动将电影画面转化为连环画风格。这款软件据称对动漫工作者和动漫爱好者均有一定意义。研发人员在《泰坦尼克》《大侦探福尔摩斯》等电影中提取了2-7分钟不等的多个电影片段进行了效果验证。据研究人员称,他们目前整致力于进一步提高系统性能和消除对白误匹配给他人的错误。这项研究成果发表于期刊IEEE Transaction on Multimedia。
原载于IEEE Computer Society:
http://www.computer.org/portal/web/news/home/-/blogs/software-automatically-transforms-films-into-comic-strips)