从上面的建模,我们可以大致感受到 Attention 的思路简单,四个字“带权求和”就可以高度概括,大道至简。做个不太恰当的类比,人类学习一门新语言基本经历四个阶段:死记硬背(通过阅读背诵学习语法练习语感)->提纲挈领(简单对话靠听懂句子中的关键词汇准确理解核心意思)->融会贯通(复杂对话懂得上下文指代、语言背后的联系,具备了举一反三的学习能力)->登峰造极(沉浸地大量练习)。 这也如同attention的发展脉络,RNN 时代是死记硬背的时期,attention 的模型学会了提纲挈领,进化到 transformer,融汇贯通,具备优秀的表达学习能力,再到 GPT、BERT,通过多任务大规模学习积累实战经验,战斗力爆棚。 要回答为什么 attention 这么优秀?是因为它让模型开窍了,懂得了提纲挈领,学会了融会贯通。 ——阿里技术
Ios应用程序图标psd下载
Hi Guys! I'm 用不同的指标看看图片 just looking for Ios应用程序图标psd下载 , does anybody have any idea 用不同的指标看看图片 where I can download it for free?
4 answers
Answer from Gator54
15 days ago, 361
You can download it here: Ios应用程序图标psd下载 . To get a free trial you have to register. The process is quick and easy!
The link was confirmed.
Everything is great, thanks!
Answer from Gator54
15 days ago, 163
If you like my answer please click "Like" ;)
Answer from MrCyclone
15 days ago, 145
Great, that's exactly what I've just searched.
Answer from CleverBOT
Robot 8 days ago, 85
Since there was no activity in the topic for 7 days, the topic was closed. To continue the conversation, create a 用不同的指标看看图片 new question.
Does anyone know where to download civillisation 5 for free?
Minecraft Free and Full Version Download?
Where can I download F1 2010 for free?
Can I download music from Andrea Berg for free?
Where can I download Nero7 for free (full version)?
Where is the easiest way to download net music for free?
Ask Us
Analyze
Offers
Partnership
Company
Privacy Policy
Our mission is to allow millions of people to help each other. Anonymous & Fast!
DMCA Notice
This site respects the intellectual property rights of all content creators, whether their work is affiliated with our site or not. If you have reason to suspect that your intellectual property rights have been infringed in any way that connects to our site, we strongly 用不同的指标看看图片 用不同的指标看看图片 advise that you contact our copyright agent with a complaint as soon as possible. We take all violations of 用不同的指标看看图片 用不同的指标看看图片 用不同的指标看看图片 the Digital Millennium Copyright Act of 1998 extremely seriously. In order to ensure your complaint remains legitimate under the DCMA, please ensure your copyright complaint contains all of the following information:
- A signature, electronic or physical, of an individual who has been authorized to 用不同的指标看看图片 用不同的指标看看图片 represent you, the copyright holder
- Clear identification of the copyrighted item(s) in question, as well as identification of the work(s) infringing on the copyright holder’s intellectual property rights
- Contact information for you, the copyright holder, that we can use to contact you, including your 用不同的指标看看图片 full name, telephone number, physical address and e-mail address
- A written letter stating that you, the copyright holder, “in good faith believes that the use of the 用不同的指标看看图片 material in the manner complained of is not authorized by the copyright owner, its agent or the law”用不同的指标看看图片
- A statement that the «information in the notification is accurate», and «under penalty of perjury, the complaining party 用不同的指标看看图片 is authorized to act on behalf of the owner of an exclusive right that is allegedly infringed»
The statement of complaint that you provide us, containing all of the above information, should be sent to our 用不同的指标看看图片 Designated Copyright Agent by post, fax or email to one of the respective contact addresses below:
PLEASE REMEMBER THAT IF YOU CHOOSE TO MISREPRESENT ANY OF THE DETAILS REGARDING AN ALLEGED COPYRIGHT INFRINGEMENT, YOU WILL BE SUBJECT TO SERIOUS CIVIL PENALTIES UNDER FEDERAL LAW, INCLUDING ANY MONETARY DAMAGES, COURT COSTS AND LAWYERS FEES ACCRUED BY 用不同的指标看看图片 US, AND ANY COPYRIGHT HOLDERS OR COPYRIGHT HOLDER’S LICENSEES WHO ARE INJURED IN ANY CAPACITY FOLLOWING OUR RELIANCE ON THE VERACITY OF YOUR REPRESENTATION. YOU COULD ALSO BE CRIMINALLY PROSECUTED FOR ACTS OF PERJURY. Do not take anything outlined in this document as formal legal advice. For further information on the details required to lodge a formal DMCA notification, please refer to 17 用不同的指标看看图片 U.S.C. 512(c)(3).
anaerobic electricity Solution
When Ryan was sixteen, he decided to start a green power company. He had always been interested in renewable energy, and he believed that there was a lot of potential in the market. With some help from his dad, Ryan set up a small office in their basement and started working on his first prototype.
It took him a few years to perfect his design, but by the time he was twenty-one, his company was starting to take off. Customers were beginning to see the value in using renewable energy, and Ryan’s business 用不同的指标看看图片 was growing rapidly.
Now, ten years later, Ryan’s startup is one of the leading providers of green power technology. They have dozens of patents and several thousand employees. And they’re still growing rapidly.
Aes Chile is now one of the leading providers of green power technology. They have dozens of patents and several thousand employees. And they’re still growing rapidly. Thanks to Ryan’s 用不同的指标看看图片 hard work and innovation, more and more people are using renewable energy, which is helping to reduce our carbon footprint and make the world a cleaner, healthier place.
Attention 机制
从上面的建模,我们可以大致感受到 Attention 的思路简单,四个字“带权求和”就可以高度概括,大道至简。做个不太恰当的类比,人类学习一门新语言基本经历四个阶段:死记硬背(通过阅读背诵学习语法练习语感)->提纲挈领(简单对话靠听懂句子中的关键词汇准确理解核心意思)->融会贯通(复杂对话懂得上下文指代、语言背后的联系,具备了举一反三的学习能力)->登峰造极(沉浸地大量练习)。
这也如同attention的发展脉络,RNN 时代是死记硬背的时期,attention 的模型学会了提纲挈领,进化到 用不同的指标看看图片 transformer,融汇贯通,具备优秀的表达学习能力,再到 GPT、BERT,通过多任务大规模学习积累实战经验,战斗力爆棚。
要回答为什么 attention 这么优秀?是因为它让模型开窍了,懂得了提纲挈领,学会了融会贯通。
——阿里技术
Attention 的 N 种类型
Attention 有很多种不同的类型:Soft Attention、Hard Attention、静态Attention、动态Attention、Self Attention 等等。下面就跟大家解释一下这些不同的 Attention 都有哪些差别。
1. 计算区域
1)Soft Attention,这是比较常见的Attention方式,对所有key求权重概率,每个key都有一个对应的权重,是一种全局的计算方式(也可以叫Global Attention)。这种方式比较理性,参考了所有key的内容,再进行加权。但是计算量可能会比较大一些。
2)Hard Attention,这种方式是直接精准定位到某个key,其余key就都不管了,相当于这个key的概率是1,其余key的概率全部是0。因此这种对齐方式要求很高,要求一步到位,如果没有正确对齐,会带来很大的影响。另一方面,因为不可导,一般需要用强化学习的方法进行训练。(或者使用gumbel softmax之类的)
3)Local Attention,这种方式其实是以上两种方式的一个折中,对一个窗口区域进行计算。先用Hard方式定位到某个地方,以这个点为中心可以得到一个窗口区域,在这个小区域内用Soft方式来算Attention。
2. 所用信息
1)General Attention,这种方式利用到了外部信息,常用于需要构建两段文本关系的任务,query一般包含了额外信息,根据外部query对原文进行对齐。
2)Local Attention,这种方式只使用内部信息,key和value以及query只和输入原文有关,在self attention中,key=value=query。既然没有外部信息,那么在原文中的每个词可以跟该句子中的所有词进行Attention计算,相当于寻找原文内部的关系。
3. 结构层次
3)多头Attention,这是Attention is All You Need中提到的multi-head attention,用到了多个query对一段原文进行了多次attention,每个query都关注到原文的不同部分,相当于重复做多次单层attention:
4. 模型方面
1)CNN+Attention
CNN的卷积操作可以提取重要特征,我觉得这也算是Attention的思想,但是CNN的卷积感受视野是局部的,需要通过叠加多层卷积区去扩大视野。另外,Max Pooling直接提取数值最大的特征,也像是hard attention的思想,直接选中某个特征。
a. 在卷积操作前做attention,比如Attention-Based 用不同的指标看看图片 用不同的指标看看图片 BCNN-1,这个任务是文本蕴含任务需要处理两段文本,同时对两段输入的序列向量进行attention,计算出特征向量,再拼接到原始向量中,作为卷积层的输入。
b. 在卷积操作后做attention,比如Attention-Based BCNN-2,对两段文本的卷积层的输出做attention,作为pooling层的输入。
c. 在pooling层做attention,代替max pooling。比如Attention pooling,首先我们用LSTM学到一个比较好的句向量,作为query,然后用CNN先学习到一个特征矩阵作为key,再用query对key产生权重,进行attention,得到最后的句向量。
2)LSTM+Attention
LSTM内部有Gate机制,其中input gate选择哪些当前信息进行输入,forget gate选择遗忘哪些过去信息,我觉得这算是一定程度的Attention了,而且号称可以解决长期依赖问题,实际上LSTM需要一步一步去捕捉序列信息,在长文本上的表现是会随着step增加而慢慢衰减,难以保留全部的有用信息。
a. 直接使用最后的hidden 用不同的指标看看图片 state(可能会损失一定的前文信息,难以表达全文)
b. 对所有step下的hidden state进行等权平均(对所有step一视同仁)。
c. Attention机制,对所有step的hidden state进行加权,把注意力集中到整段文本中比较重要的hidden state信息。性能比前面两种要好一点,而方便可视化观察哪些step是重要的,但是要小心过拟合,而且也增加了计算量。
3)纯Attention
Attention is all you need,没有用到CNN/RNN,乍一听也是一股清流了,但是仔细一看,本质上还是一堆向量去计算attention。
5. 相似度计算方式
1)点乘:最简单的方法, 用不同的指标看看图片
2)矩阵相乘:
3)cos相似度:
4)串联方式:把q和k拼接起来,
5)用多层感知机也可以:
无排序的度量指标
接下来,决策支持指标包括精度、召回率和F1得分。这些重点是衡量推荐人如何帮助用户做出好的决定。它们帮助用户选择“好的”物品,并避免“坏的”用不同的指标看看图片 物品。这些类型的度量开始强调对推荐系统来说什么是重要的。如果我们向用户推荐100个物品,最重要的是前5个、10个或20个位置的物品。精确度是选出来的物品中与用户相关的物品的百分比。它的重点是推荐最有用的东西。召回率是推荐系统选择出来的相关物品占所有相关物品的百分比。它的重点是不缺少有用的东西。F1得分是两者的结合。F1调和平均值是一种平衡精度和召回率的方法,得到一个单一的度量。
对于我们的排序任务,这些度量有一个主要的缺点。这些决策支持度量覆盖了整个数据集。它们不是针对“最顶端”的推荐。precision和recall都是关于整个结果集的。为了扩展这些度量,precision和recall通常都有一个上限n。它的形式是[email protected]:[email protected]和[email protected]:[email protected]。有趣的是,我找不到一个好的来源来描述代表[email protected]和[email protected]的调和平均数的[email protected]得分。我们继续吧。
有排序意义的度量指标
MRR: Mean Reciprocal Rank
MAP: Mean Average Precision
NDCG: Normalized Discounted Cumulative Gain
上述3个度量标准来自于两个度量家族。第一种度量包括基于二进制相关性的度量。这些度量标准关心的是一个物品在二进制意义上是否是好的。第二个系列包含基于应用的度量。它们通过度量绝对或相对的好来扩展好/坏的感觉。让我们在下一节中描述每个度量的特点。
MRR: Mean Reciprocal Rank
- 本文地址:MRR vs MAP vs NDCG:具有排序意义的度量指标的可视化解释及使用场景分析
- 本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出
MRR的优点
- 该方法计算简单,解释简单。
- 这种方法高度关注列表的第一个相关元素。它最适合有针对性的搜索,比如用户询问“对我来说最好的东西”。
- 适用于已知项目搜索,如导航查询或寻找事实。
MRR的缺点
- MRR指标不评估推荐项目列表的其余部分。它只关注列表中的第一个项目。
- 它给出一个只有一个相关物品的列表。如果这是评估的目标,那找个度量指标是可以的。
- 对于想要浏览相关物品列表的用户来说,这可能不是一个好的评估指标。用户的目标可能是比较多个相关物品。
MAP: Average Precision and Mean Average Precision
接下来是MAP度量。假设我们有一个二进制相关性数据集。我们想要评估整个推荐项目列表,直到一个特定的截止值n。这个截止值之前使用[email protected]度量。决策支持度指标计算n个推荐中好的推荐的比例。此指标的缺点是,它不认为推荐列表是一个有序列表。[email protected]将整个列表视为一组条目,并平等对待推荐列表中的所有错误。
通过PR曲线下的面积进行MAP的度量
为了比较两种系统,我们需要PR曲线下尽可能大的区域。在上面的例子中,我们比较了系统A, B和C。我们注意到系统A比系统C在所有级别的召回上都要好。但是,A系统和B系统相交的地方是B系统在较高的召回水平上表现更好。这个场景的问题是很难确定哪个系统总体上做得更好。绘图比单一的指标更难解释。这就是为什么研究人员提出了一个单一的度量来近似平均精确度(即精确度 —— 召回率曲线下的面积)用不同的指标看看图片 。
MAP优点
- 给出了一个代表精确度 — 召回率曲线下复杂区域的单一度量。这提供了每个列表的平均精度。
- 处理列表推荐物品的自然排序。这与将检索项视为集合的度量标准形成了对比。
- 这一指标能够给予发生在排序高的推荐名单中的错误更多的权重。相反,它对发生在推荐列表中较深位置的错误的权重较小。这符合在推荐列表的最前面显示尽可能多的相关条目的需要。
MAP缺点
- 这个度量标准适用于二进制(相关/非相关)评级。然而,它不适合细粒度的数字评级。此度量无法从此信息中提取误差度量。 用不同的指标看看图片
- 对于细粒度的评分,例如从1星到5星的评分,评估首先需要对评分进行阈值,以产生二元相关性。一种选择是只考虑大于4的评级。由于人工阈值的存在,这在评估度量中引入了偏差。此外,我们正在丢弃那些精细的信息。这个信息是在4星和5星之间的差异评级,以及在不相关的项目的信息。1星评级真的和3星评级一样吗?
Normalized Discounted Cumulative Gain
在NDCG之前我们有cumulative gain CG。这是一种基本的方法来积累等级相关度。这个度量不考虑元素在排序列表中的位置。对于排序任务,我们需要增加排序列表中元素位置的相对影响。standard Discounted Cumulative Gain(DCG)增加了一个对数衰减因子,以按比例惩罚项目的位置相关分数。此外,在工业应用中,为了强调检索相关文档,相关性分数得到提升是很常见的。这出现在industry DCG公式中。
我们在处理动态系统。用户将得到数量可变的相关项目推荐。这使得DCG测量在用户之间没有可比性。我们需要标准化度量,使它在0和1之间。为此,我们确定用户的理想排名。然后用该排序作为Ideal Discounted Cumulative Gain IDCG。这提供了一个很好的归一化因子。它有助于计算 Normalized Discounted Cumulative Gain。因为这是一个针对每个用户的度量,所以我们需要为测试集中的所有用户计算这个度量。然后,这个平均值用于比较recsys系统之间的差异。为了可视化这个过程,我们在下面的图中计算单个用户的预测和理想排名。