博士面试问答准备
编辑个人展示


大家好,我叫王泽华,我波尔多大学的M2 学生,我的专业是信号和图像处理,我现在正在L2S 实验室进行毕业实习,在 Nabil 和 Xujia 老师的指导下。
Bonjour à tous, je m'appelle Zehua WANG, je suis étudiant en M2 à l'université de Bordeaux, spécialisée en traitement du signal et de l'image. En ce moment, je fais mon stage de fin d'études au laboratoire L2S, sous l’encadrement de Monsieur Nabil et Xujia.
这是一些关键的课程和我的分数。
Voici quelques cours clés et mes notes de master et licence.

我列举了一些博士主题相关的主要课程的详细介绍,首先是在M1 阶段的随机信号的课程,主要介绍了La théorie de base des processus aléatoires et de la statistique.
J'ai listé quelques cours essentiels en lien avec la thèse。 Tout à bord, pendant le M1 , il y a le cours sur les signaux aléatoires. Ce cours aborde principalement la théorie de bases des processus aléatoires et de la statistique.
从随机变量到随机向量,包括概率密度函数(一维、联合、边缘、条件),协方差,相关系数,以及一些独立/不相关条件,然后是随机信号的一阶二阶稳定,从协方差函数到功率谱密度,最后介绍了维纳滤波器,包括最优滤波器公式推导,从时域卷积到频域相乘。我们的 TP 内容就是利用维纳滤波器进行反卷积,既能恢复原始信号,同时去噪。
On est passé des variables aléatoires aux vecteurs aléatoires, en couvrant des concepts comme les fonctions de densité de probabilité (à une dimension, jointes, marginales et conditionnelles), la covariance, le coefficient de corrélation, ainsi que les conditions d'indépendance et non-corrélation. Ensuite, on a étudié la stationnarité au premier et au second ordre des signaux aléatoires, la fonction de covariance et la densité spectrale de puissance. Enfin, on a introduit le filtre de Wiener, y compris la dérivation de la formule du filtre optimal, en passant de la convolution dans le domaine temporel à la multiplication dans le domaine fréquentiel.
Pour les TP, on a utilisé le filtre de Wiener pour faire de la déconvolution, ce qui permet à la fois de restaurer le signal original et de réduire le bruit.
这里是TP结果图,左边是一维信号,右边是二维图片,可见反卷积后的结果更加平滑,噪声更少。这里我们可以比较 MSE 和 PSNR 数值,原始图像的值为这个,可见维纳滤波器后得到的结果更好。
Voici les résultat de TP, a gauche, c'est un signal unidimensionnel, et à droite, une image en deux dimensions. On peut voir que les résultats après déconvolution sont plus lisse et Moins de bruit. Ici, on peux comparer les valeurs de MSE et PSNR. Les valeurs de l'image originale est celui-ci, et on constate que le résultat obtenu après l'application du filtre de Wiener est mieux.

然后在M2 ,也就是刚刚度过的那个学期,在这个基础上学习了图像恢复,主要针对反问题,去卷积,更详细地来说,包括正则化,傅立叶综合 ,勒让德变换,线性约束, etc
Ensuit, en m2 , le semestre que je viens de terminer, on a approfondi ces bases avec un cours sur la Reconstruction d’image. Ce cours se concentre sur les problèmes inverses, la déconvolution, et plus en détail, le régularisation, la synthèse de Fourier, la transformée de Legendre, les contraintes linéaires, etc.
然后实验部分,我们 在维纳滤波器反卷积基础上使用了 维纳-hunt 方法,也就是我们引入了正则化,即惩罚项,(如果这里问: 用傅立叶变换来将卷积矩阵和差分矩阵近似为循环矩阵),然后我们使用了贝叶斯方法,把正则化参数变为超参数,不需要再手动调节参数,最后我们把一些先验信息作为约束条件来加入到优化模型中,使用的方法是 ADMM(交替方向乘子法)
Pour les TP, on a utilisé les méthodes de Wiener-hunt en se basant sur la déconvolution par filtre de Wiener, c'est à dire , on a introduit la régularisation, le terme de pénalisation, (si on me demande ici: on utilise la transformée de Fourier pour approximer la matrice de convolution et la matrice de différence en matrices circulaires), ensuite on a utilisé l'approche bayésienne pour transformer la paramètre de régularisation en hyperparamètre, pas besoins de le régler manuellement. Enfin, on a intégré des informations à prior comme contraintes dans le modèle d'optimisation, en utilisant la méthodes ADMM(méthode des directions alternées avec multiplicateurs).
这里展示了四种方法的结果,同样我们可以借助 MSE 和 PSNR 来进行对比。
Ici, on a présenté les résultats de quatre méthodes, et de même , on peux les comparer à laide de MSE et PSNR.
如果详细问如何把正则化参数变为超参数: Si demande en détail comment transformer le paramètre de régularisation en hyperparamètre:
首先我们引入了伽马先验,然后我们使用了Gibbs 采样方法,把联合后验分布分解成三个条件分布的采样,最后计算后验均值作为最终的恢复图像
Tout à bord, on a introduit la distribution a priori gamma, ensuite, on a utilisé la méthode d'échantillonnage de Gibbs pour décomposer la distribution a posteriori conjointe en trois distributions conditionnelles. Enfin, on a calculé la moyenne a posteriori comme image restaurée finale.

然后M2 我们也开设了一些机器学习的课程,学习了CNN 和生成模型的原理,尤其是针对VAE 变分自编码器和diffusion 扩散模型的原理,包括其中的数学推导,核心思想等等
En M2, on a aussi suivi des cours sur machine learning, on a étudié les principes des CNN (réseaux de neurones convolutifs) et des modèles de génératif, en particulier VAE (auto-encodeur variationnels) et les modèles de diffusion. On a approfondi leur principe de fonctionnement, y compris les démonstrations mathématiques et les idées clés.
这里是 DiffuseVAE 论文的结果,我们当时被要求阅读并理解,它的核心是 introduire l'espace latent du VAE dans le DDPM,也就是在VAE的框架在引入DDPM,不过他没有真正实现这一点,他做了很多简化,到最后变成了简单的 VAE + DDPM,所以这个结果根据原始图片生成新图片,并且根据要求来产生不同的效果。其实简单的扩散模型算法就可以做到这一点。
C'est le résultat du papier s'appelle DiffuseVAE, à l'époque, le prof nous a demandé de le lire et de le comprendre. L'idée est d'introduire l'espace latent du VAE dans le DDPM, c'est à dire intégrer DDPM dans le cadre de VAE. Ses résultats sont très intéressants, on peux générer les nouvelles images à partir d'images originales, et on peux produire différents effets selon les besoins.

然后很重要的课程是滤波和优化 ,M1 M2 都有这样的课程,主要学习各种滤波器的原理、实现方法、etc ,以及各种模型。
Les autres cours très importants sont le Filtrage et l'optimisation en M1 et M2. On y apprend principalement les principes des différents type de filtres, leurs méthodes de mise en oeuvre, etc, ainsi que différents modèles.
有很多TP 比如说,用 NLMS 和卡尔曼滤波器 对AR(自回归)信号进行参数估计
Il y a beaucoup de TP. Par exemple, ici , on a utilisé le NLMS et le filtre de Kalman pour estimer les paramètres d'un signal AR(autorégressif). Après comparaison, on peut voir que le filtre de Kalman estime plus rapidement. De plus, les paramètres estimés et la variance du bruit sont également très précis.
然后用卡尔曼滤波器实现目标追踪, 结果图我没有在这里体现出来. 或者是粒子滤波实现目标追踪
Ensuite, on a implémenté le suivi de cible avec le filtre de Kalman, Je n'ai pas affiché les résultats ici.

这里是使用粒子滤波实现目标追踪,左边是对有噪声数据进行的估计,右边是理想情况,无噪声数据下进行的估计。
Ici, on a utilisé le filtre à particules pour réaliser le suivi de cible. À gauche, on voit l'estimation effectuée sur des données bruitées, et à droite, l'estimation dans le cas idéal, c'est-à-dire avec des données sans bruit.
(如果问: 粒子滤波是一种基于蒙特卡洛方法的贝叶斯估计工具,我们用大量的粒子去模拟目标位置的概率,步骤包括初始化、传播、计算权重、状态估计、然后冲采样避免粒子退化现象)
(Si on me demande: Le filtre à particules est un outil d'estimation bayésienne basé sur la méthode de Monte Carlo. On utilise un grand nombre de particules pour simuler la probabilité de la position de la cible. les étapes incluent l'initialisation, la propagation, le calcul des poids, l'estimation de l'état, puis le rééchantillonnage pour éviter la dégénérescence des particules)
然后针对时变模型,我们使用随机梯度下降算法来解决信号通道失真问题,也就是实时自适应滤波器设计
Ensuite, pour les modèles variant dans le temps, on a utilisé l'algorithme de descente de gradient stochastique pour résoudre les problèmes de distorsion du canal de signal, c'est à dire pour concevoir des filtres adaptatifs en temps réel.

还有各种优化理论,这些方法,然后 TP 中,我们应用梯度下降法和牛顿法来研究 Rosenbrock函数的最小值
On a aussi étudié diverses théories d'optimisation. Comme ces méthodes, dans le TP, on a appliqué la descente de gradient et la méthode de Newton pour rechercher le minimum de la fonction de Rosenbrock.
我们可以看见 牛顿法的速度更快,更准确。
On peut voir que la méthode de Newton est plus rapide et plus précise.
这只是一部分部分课程的介绍,还有一些其他方面的课程,比如说控制,系统的建模,导航等等,peu important.
Ce ne sont que l'introduction d'une partie de cours, il y a aussi d'autres cours comme le contrôle, la modélisation des systèmes, la navigation, etc, mais peu important.
在我M1 第二学期的时候,我在ims实验室做了一个三个月的实习,Amélioration du traitement des données sur les données 太赫兹, 主要是为了重建高分辨率的图像。主要用的是FFT 和 Stolt 差值法。
Pendant mon deuxième semestre de M1 , j'ai fait un stage de trois mois au labo IMS à bordeaux.
Mon sujet est "l'amélioration du traitement des données térahertz" , avec pour l'objectif principal de reconstruire des images à haute résolution avec les méthodes de FFT et interpolation de Stolt.

这个是主要的算法流程图,叫做RMA算法(Range Migration Algorithm),我们首先读取数据,然后利用二维傅立叶变换将时间-空间域数据变成频域-波数域数据,然后这里有一个波动方程,我记不清公式了,但是可以根据这个公式进行相位校正,来补偿相位误差,也就是解决距离迁移问题,然后我们用 stolt 插值算法来解决数据分布不均匀的问题,最后二维逆傅立叶变换,得到最后聚焦的图像。这就是整体的思路,以及我在实习过程中学到的la méthode de l'amélioration des données
所以最重要的两步就是 相位校正和Stolt 插值。
Concrètement, l'algo se déroule comme ça: il s'appelle RMA (Range Migration Algorithm), on lis d'abord les données, et on applique la transformé de Fourier 2D pour passer du domaine temps - espace au domaine fréquence - nombre d'onde.
Et après , ici il y a une équation d'onde (je ne me souviens plus la formule exacte), mais on peux l'utiliser pour compenser les erreurs de phase , c'est à dire de corriger la migration de distance.
Ensuite, on utilise l'interpolation de Stolt pour résoudre le problème de non - uniforme, et à la fin on fait la transformé de Fourier inverse 2D pour obtenir l'image finale focalisé.
Du coup, les deux étapes les plus importantes, c'est la compensation de phase et l'interpolation de Stolt.

然后是我对这个博士主题的想法
Ensuite ce sont mes idées sur ce thèse de doctorat c'est à dire mes motivations.
首先我非常喜欢数学,我从本科开始关于数学方面的课程分数一直都很好,在我之前介绍的课程知识中,每个算法背后都有核心数学公式作为支撑,我也想研究数学,提出自己的数学算法。
其次,我以后希望成为一名老师,因此我必须具备非常强的理论基础,这就是我为什么读博士的原因。
最后关于这个主题,我觉得这个题目很有意思,也很有意义,我相信每个领域都离不开数据处理,如果我做一份很好的工作,我相信对每个领域都有积极的影响
D'abord, j'aime beaucoup les mathématiques. Depuis ma licence, j'ai toujours obtenu de très bonnes notes dans les cours mathématiques, et dans les cours que j'ai présenté précédemment, chaque algorithme repose sur des formules mathématiques, j'aimerais également étudier les mathématiques et proposer mes propres algorithmes mathématiques.
Ensuite, dans le future je souhaite devenir un enseignant. Pour cela, je dois avoir une base théorique très solide, et c'est pourquoi je veux faire un doctorat.
Enfin, concernant ce sujet, je trouve la thèse est très intéressante et significative. Je crois quêtons les domaines ont besoins de traitement de données, et si je fais un bon travail, cela aura une signification positive dans chaque domaine.
因为现在是AI时代,机器学习在每个领域都占有重要地位,我也想在这个快速发展中做贡献自己的一份力量,所以我非常希望能精通统计学和机器学习的核心理论,解决存在的理论问题,在未来走上研究的道路。
D'abord on est dans l'ère de AI et machine learning prend de plus en plus de place dans tous les domaines. j'ai envie de contribuer à cet élan et pour ça , j'aimerais maîtriser à fond les bases théoriques de la statistique et du machine learning afin de résoudre des problèmes et de pouvoir faire de la recherche dans le future.
另一方面是,在我之前介绍的知识中,每个算法背后都有一些核心的数学公式做支撑,我喜欢数学,我也想做数学理论,我也想提出自己的数学算法。坦白的来讲,在法国的第一个学期,我听不懂课程,但是我看的动数学公式,换句话说,我只能通过数学公式去理解他在讲什么,从那个时候我就下定决心要做数学理论方面的研究了。
Et D'autre part, comme je les ai montré précédemment , chaque algorithme repose sur des formules mathématiques importantes. J'adore les mathématiques et j'aimerais moi aussi développer un algo mathématique de moi même .

一般性问题
自我介绍和背景
优缺点 个人不足
我的优势是 我会说法语,其次我会在实验室进行6个月的实习,我可以提前学习相关基础知识.
Pour mes avantages, premièrement, je parle le français, même si mon français n'est pas super bien, mais ça va. Deuxièmement, je fais mon stage ici pendant six mois, ce qui me permet d'apprendre les connaissances nécessaires à l'avance.
我的优点是: 乐观,我数学比较好,逻辑思维比较好,我自律性比较好,我不会一整天都打游戏。
Et pour moi personnellement, Je suis optimiste. Mon neveux mathématique est pas mal. Je suis aussi discipliné : je ne passe pas toute la journées à jouer aux jeux vidéo.
缺点是:
家庭支持
他们对我100%支持,如果一切顺利,我将是我们家族第一个博士生。我父母为我的硕士阶段的学习提供了100%的资金支持,他们更希望我把更多时间用在学习上。
Ma famille me soutient à 100%. Si tout se passe bien, je serai le premier doctorant de ma famille. Et mes parents ont entièrement financé mes études de master, ils souhaitent que je consacre le plus de temps possible à l'étude.
学术与生活平衡
我觉得在学术研究之后充分放松自己很重要,关键在于运动,我比较喜欢跑步(同时听音乐),然后我喜欢羽毛球,不过波尔多这边的体育馆有点远不是很方面,不过我非常喜欢打羽毛球,虽然我没有精通。因此我的做法是,在每天必要的学习之间外,抽出时间来进行运动,如果很忙那就散散步听听音乐,如果不忙就跑步、羽毛球。
我每次至少打三个小时,但是我不是每天都打,因为我的膝盖疼,所以有些时候在学习时间之外,我很想去打羽毛球来释放压力,或者边散步边听歌。
Je pense qu'il est très important de savoir comment se détendre complètement après des recherches académiques. Pour moi, je fais du sports, surtout le badminton, à chaque fois, je joue au moins 3h, mais je joue pas tous les jours parce que j'ai parfois mal aux genoux. Du coup, quand j'ai finies études de la journée, j'ai souvent envie de jouer au badminton pour me défouler, ou alors de faire une promenade en écoutant de la musique.
当我遇到困难的时候是怎么克服的
首先我觉得困难的原因是我对他不是完全了解,我需要做的就是找到我不懂的那部分然后补充上去,再回过头看问题的时候会有一个清晰的概念,顺着这个概念去寻找答案,无论是在网上 ,还是问老师 etc
Je pense que la difficulté vient du fait que je le connais pas . Du coup je dois identifier les parties que je comprend pas, et les chercher en ligne, puis je reviens au problème avec une vision plus claire. Si toujours pas, je demande mes professeurs.
读博士内容相关
为什么选择巴黎萨克雷?
首先巴黎萨克雷是全世界富有盛名的高校,科研条件和环境是顶尖的。
其次是在我联系Nabil的这个过程中,我发现了他很友善,高效,并且通过他的论文(即使我看不懂),但是我可以感受到这个老师非常的勤奋,我希望跟一个这样的老师,因为我也很勤奋,我相信我一定会有一个很好的发展
最后最重要的就是我很喜欢这个主题
Tout à d'abord, Paris-saclay(L2S) est une université de renommée mondiale, avec des conditions et l'environnement de recherche de premier ordre.
Ensuite, mes deux enseignants sont très gentil, si c'est possible, je veux rester ici.
Enfin, le plus important, j'aime vraiment ce sujet.
你专业是信号处理,去做数据处理不跨专业吗?
我觉得核心知识很多都是相通的,特别是数学方面,其他方面我可以学习,我觉得到了这个阶段,我有能力学习任何新知识。
Je pense que beaucoup de connaissances de base sont communes, surtout en mathématiques, pour les autres aspects que je connais pas, je peux les apprendre, à ce stade, je suis convaincu que j'ai la capacité d'apprendre n'importe quelle nouvelle connaissance.
能不能说英语
说不了一点,由于我一直在法国说法语,所以我的英语口语已经被法语占领了,每次我想说英语的时候,我会自动切换到法语,但是我的英语阅读没有问题,毕竟我们已经学习了至少十年的英语。
Comme je suis en france et que je parle français tout le temps, mon anglais oral a été complètement controlé par le français. Dès que je veux parler anglais, je passe automatiquement en français. Mais j'ai pas le problem avec la lecture en anglais, car on en ai étudié pendant au moins dix ans.
简单介绍一下你的研究兴趣
现在我最感兴趣的就是机器学习,现在机器学习太厉害了太重要了,各个领域的研究人员都在研究机器学习,而且它真的很有趣,他完成了人类无法完成的任务,这就是我想研究的。
Ce qui m'intéresse le plus, c'est machine learning, il est tellement puissant et essentiel, les chercheurs dans tous les domaines l'étudient. Et il accomplit des tâches que les humains ne peuvent pas réaliser, c'est exactement ce que je veux étudier.
我能为这个项目研究带来哪些贡献?
我认为数据缺失问题在每个领域都是重要问题,我相信如果我做好了,我的工作对每个领域都有积极意义
Je pense que le problème des données manquantes est crucial dans tous les domaines. SI je ferai un bon travail, mon travail aura un impact positif pour chaque domaine.
你期待在你的博士过程中得到什么?
我想要成为一名科研人员,我想完全掌握统计学和机器学习理论,这就是我想要得到的,我想要得到一个扎实的理论知识。然后提出属于自己的理论和方法
Je veux devenir un chercheur dans le futur. Mon objectif est de maîtriser complètement la théorie de l'apprentissage statistiques. C'est ce que je veux acquérir: une base théorique solide, et proposer mes propres théories et méthodes.
如果再远一点,未来我想当老师
Si encore plus loins, je veux devenir un enseignant à l'université.
为什么选法国?
我从本科开始就学习法语,当全世界都在说英语的时候,我想学一点不一样的,所以我选择了法语,并继续来法国读硕士,我认为主要是语言把我带来了法国。
J'apprends le français depuis ma licence. Losque tout le monde parle anglais, j'ai voulu me différencier un peu en choisissant le français. C'est pour ça que j'ai continué à venir en France pour mon master. Je pense que c'est surtout la langue qui m'a amené en France.
你会哪些专业技能
从本科开始我一直都在使用matlab,所以我对matlab非常熟悉,对于python我刚刚从这个学习开始学习,我可以看懂大部分的代码。
Depuis ma licence, j'utilise Matlab, donc je le connais très bien. Et pour python, ca va, je peux comprendre les codes, mais mal à l'aise, pas très familier.
Mais je suis entrain d'approfondir le python et apprendre la langue R.
读完博士做什么?
继续读博士后,博士后结束我会尝试当一名老师,我很喜欢教学生,让我感觉我的生活有意义
Je vais continuer le post doctorat, et après je veux devenir un enseignant, j'aime bien enseigner aux étudiants, cela donne un sens à ma vie.
实习对你的博士有什么帮助 En quoi le stage aide-t-il pour le doctorat?
首先我熟悉了这里的环境,我认识了这里的博士生,氛围很好,然后我的实习主题和博士主题都是统计学习,所以很多基础知识是相通的,所以我可以提前开始我的工作。
D'abord, je me suis familiarisé avec l'environnement ici, j'ai rencontré des doctorants ici, ils sont gentil, l'ambiance est très bonne, et mes sujets de stage et de doctorat sont tous les deux en apprentissage statistique, donc de nombreuses connaissances de bases sont commune, du coup je peux commencer mon travail plus tôt.
对导师成果有哪些了解
Nabil 老师在统计学上非常厉害,上次我和一个博士生聊天,他说Nabil 老师在这里非常有名。
Xujia 老师非常精通随机模拟器,stochastic simulators,所以他们在统计学上都非常厉害。
Le professeur Nabil est très fort en statistiques. La dernière fois, j'ai discuté avec un doctorant qui m'a dit que le professeur Nabil est très connu ici.
Monsieur Xujia, il est un tres fort en simulateurs stochastiques (stochastic simulators).
课程内容相关
随机信号课程
协方差函数和功率谱密度是什么? 有什么关系?
协方差函数描述了随机信号在不同时间点的相关性,而功率谱密度则描述了信号在不同频率上的能量分布(反映了信号中各个频率成分的强度)。这两者之间的关系由 Wiener-Khinchin 定理给出,该定理表明,随机过程的自协方差函数和其功率谱密度互为傅里叶变换。
La fonction de covariance décrit la corrélation d'un signal aléatoire à différents instants, tandis que la densité spectrale de puissance décrit la distribution de l'énergie du signal à différentes fréquences(c'est à dire l'intensité des différentes fréquentielles du signal).
La relation entre les deux est donée par le théorème de Wiener-khinchin, ils sont liées par la transformée de Fourier.
维纳滤波器的核心思想是什么?
维纳滤波器的核心思想是恢复被噪声污染的信号,方法是最小化估计的均方误差(MSE),也就是 滤波后的输出信号和原始信号之间的差值。
他的缺点是我们需要知道其信号的统计特性(比如说 协方差函数 和 功率谱密度),但是很多情况下我们没有这样的信息,所以后来衍生出了 Wiener-Hunt 方法 等等
L'idée clé de filtre de Wiener est de restaurer un signal bruité en minimisant l'erreur quadratique moyenne(MSE) entre le signal filtré et le signal original.
son inconvénient est qu'il nécessite de connaître les propriétés statistiques du signal( par exemple la fonction de covariance et la densité spectrale de puissance), Cependant, dans de nombreux cas, ces informations ne sont pas disponible. C'est pourquoi on a développé les autres méthodes comme Wiener - Hunt, etc
随机信号的平稳性?
随机信号的平稳性指的是信号的统计特性不随时间变化。如果一个信号是一阶二阶平稳的,那么其均值和协方差函数不随时间变化,只依赖于时间差。
平稳性假设有很多优点,比如说,简化了数学分析,可以使用功率谱密度来分析信号的频率成分。
Qu'est-ce que la stationnarité d'un signal aléatoire?
Elle signifie que ses propriétés statistiques ne changent pas avec le temps. Si un signal est stationnaire au premier et au second ordre, alors sa espérance et sa fonction de covariance ne dépendent pas du temps, mais seulement de la différence entre les instants.
L'hypothèse de stationnarité simplifie l'analyse mathématique.
蒙特卡罗模拟法的基本思想? L'idée principale de la méthode de Monte Carlo?
很多时候为了了解一个系统的统计特性,我们必须进行解析计算期望值、概率等元素,但是实际情况下,这些积分或者解方程等计算非常困难,因此这个时候我们采用蒙特卡洛法。其核心思想就是 大数定律 和 中心极限定理,也就是当样本数足够大的时候,统计得到的概率就近似为真实值。
Souvent pour connaître les propriétés statistiques d'un processus aléatoire, on dois calculer son espérance ou blabla. Cependant, ces calculs sont tres difficiles( comme les intégrales etc). Alors on utilise la méthode de Monte Carlo, son idée repose sur la loi des grand nombres et le théorème central limite: c'est à dire losque le nombre d'échantillons est suffisamment grand, la probabilité obtenue statistiquement se rapproche de la valeur réelle.
随机变量的独立性和不相关性
独立性意味着一个变量的取值不会影响另一个变量的取值,它们的联合概率密度函数可以分解为各自边缘概率密度函数的乘积。也就是它们之间没有任何关系。
不相关性则是指两个随机变量的协方差为零,即它们之间没有线性关系,但是有可能有非线性关系。
独立可以推出不相关,不相关只有在高斯分布的情况下才能推出独立。
L'indépendant et non corrélation d'un variable aléatoire?
L'indépendance signifie que la valeur d'une variable n'influence pas la valeur d'une autre, leur fonction de densité de probabilité conjointe peut être décomposée en produit de leur fonctions de densité marginales. En d'autres termes, elles n'ont aucune relation entre elles.
La non- corrélation signifie que la covariance entre deux variables aléatoires est nul, c'est à dire qu'il n'y a pas de relation linéaire entre elles. Cependant, une relation non linéaire peut toujours exister.
Alors L'indépendance implique la non-corrélation, mais à l'inverse ça marche pas, sauf dans le cas d'une distribution gaussienne.
协方差矩阵的性质
协方差函数描述了信号在不同时间点的相关性。协方差矩阵是对称且半正定的。协方差矩阵的对角元素是各个随机变量的方差,非对角元素是不同随机变量之间的协方差。
Les propriétés de la matrice de covariance.
La fonction de covariance décrit la corrélation d'un signal à différents instants. La matrice de covariance est symétrique et semi- définie positive. Les éléments diagonaux de la matrice de covariance représentent la variance de chaque variable aléatoire, tandis que les éléments non diagonaux représentent la covariance entre différentes variables aléatoire.
图像恢复 -- 反问题
正则化是什么?
正则化的关键在于在损失函数中加入一个惩罚项,防止过拟合问题。
La clé de la régularisation est d'ajouter un terme de pénalisation à la fonction de perte pour éviter le (overfitting).
Wiener-Hunt方法的核心思想?
单纯的Wiener滤波器需要信号的统计信息,但是很多时候我们无法得到信号的统计信息,因此我们把它改进成 Wiener-Hunt 方法,它的主要思想添加一个正则化项,也就是惩罚。这样既可以拟合数据,又可以平滑图像。但是他的缺点是需要手动调节正则化参数 \mu 。
Le filtre de wiener classique nécessite des information statistiques sur le signal, mais souvent ces information sont pas disponible. C'est pourquoi on a développé la méthode de Wiener Hunt, son idée principale est d'ajouter un terme de régularisation c'est à dire une pénalisation. Cependant, sont inconvénient est qu'il faut régler manuellement le paramètre de régularisation.
如何利用贝叶斯方法实现超参数的自动调节?
为了避免手动调节参数,我们进行了一种贝叶斯解释,可以自动调节参数。在贝叶斯方法中,我们给超参数设定先验分布,并结合观测数据,计算其后验分布。然后,使用如Gibbs采样的MCMC方法从后验分布中采样,估计超参数的期望值或最大后验估计(MAP)。这种方法可以根据数据自适应地调整超参数,避免手动调节。
Pour éviter de régler manuellement les paramètres, on utilise une interprétation bayésienne. Dans cette approche, on assigne une distribution à priori aux hyperparamètres, puis on combine cette distribution avec les données observées pour calculer leur distribution a posteriori. Ensuite, on utilise des méthodes MCMC comme l'échantillonnage de Gibbs pour échantillonner à partir de la distribution a posteriori et estimer l'espérance ou le maximum a posteriori(MAP) des hyperparamètres. Cette méthodes permet d'ajuster automatiquement les hyper paramètres en fonction des données, sans intervention manuelle.
什么是Gibbs采样?
Gibbs采样是一种马尔可夫链蒙特卡罗(MCMC)方法,用于从高维概率分布中采样。
L'échantillonnage de Gibbs est une méthode de Monte-Carlo par chaîne de Markov (MCMC) utilisée pour échantillonner à partir d'une distribution de probabilité de grande dimension.
Huber惩罚函数的核心思想?
Huber函数也是半二次函数。他有一个阈值,对于小偏差,其惩罚是二次函数,保持平滑性;而对于大偏差,它会切换到线性行为,避免过度惩罚。
La fonction de Huber est également une fonction semi-quadratique. Il a un seuil, pour les petites déviations, sa pénalité est une fonction quadratique, ce qui maintient la douceur ; tandis que pour les grandes déviations, il basculera vers un comportement linéaire pour éviter une pénalité excessive.
最优滤波
随机信号的线性随机过程模型?
自回归(AR)模型
移动平均(MA)模型
自回归移动平均(ARMA)模型
随机信号的时变模型和非线性模型?
时变模型
自回归时变(TVAR)模型和时变移动平均(TVMA)模型可以捕捉信号的非平稳特性。
非线性模型
主要使用非线性函数进行处理
粒子滤波器的工作原理是什么?
粒子滤波器是非线性滤波器,适用于非高斯和非线性系统的状态估计
步骤: 通过随机采样生成一组粒子,每个粒子代表状态的可能值。然后我们更新每个粒子的权重,根据权重对粒子进行重采样,保留高权重的粒子,剔除低权重的粒子,最后通过加权平均或最大后验估计得到系统的状态估计。
Le filtre à particules est un filtrage non linéaire adaptée à l'estimation d'état pour des systèmes non gaussiens et non linéaires.
Les étapes sont les suivantes :
On génère un ensemble de particules par échantillonnage aléatoire, chaque particule représentant une valeur possible de l'état.
Ensuite, on met à jour le poids de chaque particule.
On effectue un rééchantillonnage en fonction des poids, en conservant les particules à poids élevé et en éliminant celles à faible poids.
Enfin, on obtient l'estimation de l'état du système par une moyenne pondérée ou une estimation du maximum a posteriori (MAP).
在自相关函数里,如果滞后值很大,会发生什么?
Dans la fonction d'autocorrélation, que se passe-t-il si la valeur de décalage (lag) est grande ?
如果滞后值大,那么可用于计算自相关的样本数量极少,缺乏足够的数据,无法计算自相关函数。
Si le décalage est grand, on aura pas beaucoup de nombre d'échantillons disponibles. Du coup on manque les données, ça rend impossible le calcul de la fonction d'autocorrélation.
白噪声为什么在时域上它的自相关函数是一个冲激函数\delta(\tau),在频域上是一个常数谱?
白噪声假设在时域上各时刻互不相关(除了\tau=0 时有相关)。
在频域,根据傅里叶变换,冲激函数的变换结果是常数,所以白噪声的功率谱密度在所有频率上都是相同的常数\sigma^2。
L'hypothèse du bruit blanc implique que, dans le domaine temporel, les valeurs à différents instants ne sont pas corrélées (sauf à un décalage nul).
Dans le domaine fréquentiel, selon la transformée de Fourier, la transformée d'une impulsion est une constante. Par conséquent, la densité spectrale de puissance du bruit blanc est la même à toutes les fréquences.
移动平均 (MA) 过程和自回归 (AR) 过程在滤波器结构上有什么区别?
Le modèle MA n'a pas de rétroaction, il a une mémoire limitée.
Le modèle AR a une mémoire de rétroaction
非线性模型中,为什么会出现像u(n)u(n-1) 这样的乘积项,它在信号系统里代表什么意义?
输出不仅受到输入的线性加权,也依赖于输入值之间的非线性耦合。
La sortie dépend non seulement du poids linéaire de l'entrée, mais aussi du couplage non linéaire entre les valeurs d'entrée.
卡尔曼滤波器的基本方程是什么?它的工作过程分为哪两个阶段?
卡尔曼滤波器分为两个主要步骤:预测和更新。
预测阶段: 预测当前时刻的状态和误差协方差。提供先验信息。
更新阶段: 修正预测值,得到更准确的状态估计和误差协方差。提供后验估计。
Le filtre de Kalman se décompose en deux étapes principales : la prédiction et la mise à jour.
Étape de prédiction : Prédire l'état actuel et la matrice de covariance de l'erreur. Cela fournit une estimation a priori.
Étape de mise à jour : Corriger les valeurs prédites pour obtenir une estimation plus précise de l'état et de la matrice de covariance de l'erreur. Cela fournit une estimation a posteriori.
什么是 LMS 算法?它的核心更新公式是什么?
LMS(最小均方)算法是一种自适应滤波算法,利用误差信号逐步调整滤波器系数 H_N(k),使滤波器输出信号逐渐逼近期望信号,从而最小化误差信号的均方值。
L'algorithme LMS (moindres carrés moyens) est un algorithme de filtrage adaptatif. Il ajuste progressivement les coefficients du filtre en utilisant le signal d'erreur, afin que la sortie du filtre se rapproche progressivement du signal souhaité. Cela permet de minimiser la valeur quadratique moyenne du signal d'erreur.
LMS 算法的核心更新公式为:
什么是 NLMS 算法?它与 LMS 算法的主要区别是什么?
NLMS(归一化最小均方)算法是 LMS 算法的改进版本,通过对步长因子进行归一化,提高了算法的收敛性和稳定性。
L'algorithme NLMS (moindres carrés moyens normalisés) est une version améliorée de l'algorithme LMS. En normalisant le facteur de pas, il améliore la convergence et la stabilité de l'algorithme.
NLMS 算法的更新公式为:
如果继续追问:
在 LMS 算法中,步长因子\alpha 是固定的,可能会导致不稳定或收敛速度过慢的问题。
Dans l'algo LMS , le facteur de pas est fixé, ça va peux etre entrainer des problèmes d'instabilité.
Optimisation
什么是无约束优化和有约束优化?它们的主要区别是什么?
有约束优化是在优化目标函数的同时,满足一定约束条件,有等式约束和不等式约束。
常见的无约束优化方法包括梯度下降法、共轭梯度法和牛顿法。
常见的有约束优化方法包括拉格朗日乘数法和内点法。
L'optimisation sous contraintes consiste à optimiser une fonction objectif tout en respectant certaines conditions. Il existe des contraintes d'égalité et des contraintes d'inégalité.
Les méthodes d'optimisation sans contraintes courantes incluent :
La descente de gradient
La méthode du gradient conjugué
La méthode de Newton
Les méthodes d'optimisation sous contraintes courantes incluent :
La méthode des multiplicateurs de Lagrange
La méthode des points intérieurs
梯度下降法的工作原理是什么?它的优缺点是什么?
沿目标函数梯度的负方向来调整参数,使目标函数逐渐减小,最终达到最优值(局部或全局最小值)。
On va choisir la direction opposée au gradient de la fonction objectif, ce qui permet de réduire progressivement la valeur de la fonction objectif jusqu'à un optimum.
梯度下降法只计算目标函数的一阶梯度,牛顿法在此基础上还计算了海森矩阵,更快、更稳定。
Le méthode de descente de gradient ne calcule que le gradient de premier ordre de la fonction objectif, tandis que la méthode de Newton est encore plus loins, il calcul également la matrice hessienne, ce qui la rend plus rapide et stable.
共轭梯度法的主要特点是什么?
在每次迭代中,共轭梯度法选择的搜索方向不是简单的负梯度方向,而是与之前方向共轭。收敛速度更快
Dans chaque itération, il choisi la direction conjuguée par rapport aux direction précédentes, n'est pas simplement la direction opposé au gradient. La vitesse de convergence est plus rapide.
拉格朗日乘数法的主要思想是什么?
我们将目标函数和约束条件结合在一起,构成一个拉格朗日函数,这样他就会把原本的有约束优化问题变成无约束优化问题,再求解找到最优解
On combine la fonction objectif et les contraintes pour former une fonction de Lagrange. Cela transforme le problème d'optimisation sous contraintes en un problème d'optimisation sans contraintes, qu'on peut ensuite résoudre pour trouver la solution optimale.
构造辅助函数(拉格朗日函数):
拉格朗日乘数法的必要条件是:
联立以下方程求解 x 和 \lambda:
实习方面
Stolt 插值 (Stolt interpolation) 是什么原理?
Stolt 插值就是将数据从“不均匀采样”的状态转变为“均匀采样”的状态,从而对不在参考距离上的目标实现正确聚焦。
L'interpolation de Stolt consiste à transformer des données échantillonnées de manière non uniforme en uniforme, pour réaliser une focalisation correcte (pour les cibles qui ne se trouvent pas à la distance référence.)
原始数据经过傅里叶变换后,在频域中得到的变量 kx 并不是均匀分布的,为了正确地对目标进行聚焦,需要把数据重新映射到均匀采样的坐标上,也就是映射到 krange 坐标上。这样数据变得更加均匀,便于逆傅立叶变换,结果更清晰
Après la transformé de Fourier des données brutes, la variable obtenue dans le domaine fréquentiel n'est pas uniformément distribuée. Pour focaliser correctement sur la cible, il faut rééchantillonner les données sur un axe uniforme, c'est à dire les mapper sur l'axe Krange. Alors comme ça les données sont plus uniformes, facilitant la transformé de Fourier inverse et produisant des résultats plus nets.
kx 是经过傅立叶变换得到的波数信息,不均匀的,krange 则是理想情况下、均匀分布的波数轴。
kx est l'information de nombre d'onde obtenue après la transformé de Fourier, il est non uniforme, et krange est l'axe uniforme, idéal.
Stolt 插值 具体做法
对数据在第三维度(频率或这个波数维度)进行一维插值
on fait l'interpolation unidimensionnel sur la troisième dimension des données( c'est à dire la dimension de fréquence ou de nombre d'onde)
这里怎么没有结果图
首先这个代码部分是老师提供给我的,其结果并非我自己的结果,所以这里我只展示了我学到的理论部分,然后在最后我尝试处理一个新的数据文件,但是它的格式是svd,我们没找到一种很好的程序或者代码来提取这个数据文件,所以即使我最后编写了自己的代码,我做了同样的思路和流程,但是最后结果并不好,我没有得到清晰的图像结果,所以我没有展示在这里。
Tout à bord, ce code m'a été fourni par mon enseignant, donc les résultats sont pas les miens. Alors ici je ne montre que la partie théorique que j'ai appris. Ensuite à la fin, nous avons essayé de traiter un nouveau fichier de données, mais son format est .svd. Alors nous avons pas trouvé les méthodes les codes pour extraire complètement ces données, Même si j'ai écrit mon propre code ensuivent le même processus, mais a la fin j'ai pas obtenu les bonne résultats, les images claire et focalisé, donc je l'ai pas affiché ici.
补充: 我觉得三个月的实习时间太短,对于实践部分,当时确实没有充足的时间。
Pour un stage de 3 mois c'est un peu trop court, on a bien appris les théories, mais pour l'implémentation, j'avais pas assez de temps à l'époque.
成像/插值过程中,是否考虑噪声、散射、或多路径效应?如何在频域或插值算法中抑制这些干扰?
这些干扰因素并没有被建模,而是采用了间接方法来降低它们的影响,比如说找到并移除背景噪声,或者利用窗函数。
Il n'a pas modélisé ces éléments de perturbation, à la place, il a utilisé des méthodes indirectes pour réduire leur impact, comme identifie et supprime le bruit du fond, ensuite utilise des fonctions de fenêtrage.
面对 3D 成像和高分辨率插值的复杂度,后续还可以有哪些延伸工作?
可以利用神经网络直接端到端地从原始数据到图像结果进行处理,不必再遵守这些步骤,不用再傅立叶变换、插值。
on peux utiliser le réseau de neurones pour traiter directement les données brutes jusqu'à l'image finale, sans suivre ces étapes intermédiaires.
或者我们可以学习其中的插值部分,比如说我们学习从 kx 到 krange 的映射关系,这样就变成了一个回归模型,可以实现自动插值。
Ou alors on peux remplacer la partie de l'interpolation, par exemple on appris la relation mapping entre kx et krange, alors ça sera un interpolation automatique.
统计学习降尺度
我的实习题目是统计降尺度,然后解决的问题是,我们要把全球气候模型得到的大尺度输出数据变成局部小尺度输出数据,我们把它们分别称为 X 和 Y ,那么我们的任务就是找到一个 X 和 Y 之间的映射函数,然后利用历史观测数据找到函数的参数 \beta,这个过程叫做 Calibration,一旦有了这个参数 \beta ,我们就可以进行未来气候预测,这个过程叫做 Projection。En résumé,如何找到 X 和 Y 之间的映射关系,就是我实习的重点。
Le sujet de mon stage est la réduction d'échelle statistique. Le problème à résoudre est de transformer les données à grande échelle issues des modèles climatiques globaux en données à petite échelle locale. On appelle ces données respectivement X et Y. Ma tâche consiste donc à trouver une fonction de mapping entre X et Y, puis à utiliser des données historiques d'observation pour déterminer les paramètres de cette fonction. Ce processus s'appelle la calibration. Une fois le paramètre obtenu, on peut effectuer des prédictions climatiques futures. Ce processus s'appelle la projection.
En résumé, l'objectif principal de mon stage est de trouver la relation de mapping entre X et Y à l'aide de l'apprentissage statistique.
统计学习处理非随机缺失数据
缺失数据一共分为三种,Missing Completely at Random (MCAR), Missing at Random (MAR), and Missing Not at Random (MNAR). 其中最难处理的就是非随机缺失数据,因为我们知道数据的缺失是有规律的,但是我们无法直接找到这个规律,比如说,我们需要在一份表格中填体重,比较胖的人就倾向于减少他的体重值,这就导致了得到的数据并不准确,但是他是有规律的,比如说胖子的体重偏低,这只是一个简单的例子,实际中这个问题的维度很高,那我们就必须需要机器学习来完成,更详细的来说,统计学习。
Les données manquantes se divisent en trois catégories : Missing Completely at Random (MCAR), Missing at Random (MAR), et Missing Not at Random (MNAR). Le cas le plus difficile à traiter est celui des données manquantes non aléatoires (MNAR), car on sait que l'absence de données suit une certaine logique, mais on ne peut pas le trouver directement .
Par exemple, si on doit remplir un tableau avec des poids, les personnes en surpoids ont tendance à sous-estimer leur poids, ce qui fausse les données. Cependant, cette tendance est prévisible. Ce n'est qu'un exemple simple, mais en réalité, ce problème peut impliquer des dimensions bien plus complexes. Dans ce cas, on doit le faire à l'aide de machine learning, plus précisément l'apprentissage statistique.
面试反馈
三月五日上午9点30进行的面试,面试还可以,个人展示环节无可挑剔,回答问题部分中规中矩,很多问题我没搞明白。
首先是两个面试老师的自我介绍,然后是我的个人演讲,然后问答环节,首先问我,由于我们不知道这个主题,所以你是否可以给我们讲一下,这下直接就撞上上面准备的东西了,所以我把这个例子一举,非常的好啊,基本上就稳了,然后问我应用,一开始我没明白什么应用,什么意思,最后我才知道,应用到什么领域,我说我导跟我说可以做气候方面的领域,最后女老师问我,以后怎么办,你要回中国,你的动机是什么,我一开始没听懂啊,因为我已经说了我想做老师,没想到是这个问题的延伸,后来胡说八道之后又确认了一下,最后明白了,我说我要读博士后,我要在这边研究一段时间,有一段的科研经验会更好,他们点头同意,感觉还不错,如果评分的话,个人展示9/10分,问答能有个6 7/10分,他们还夸我说我法语说的好,我说是老师和同学帮我纠正的,最后问我什么问题,我说原本我导师说也要来的,最后他们太忙了没来,他们说这很正常,就没了,拜拜再见。
总的感觉还行,不能说稳了,毕竟我说法语,感觉还是有一定竞争力的,除此之外希望另一部分资金能补上,这样我也能读博士咯。